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己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 
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未 经 授权 ， 不 得 进行 传播 。 
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和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
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内 容 提 要 


本 书 介 绍 如 何 使 用 Java 创建 并 实现 机 器 学 习 算 法 ， 既 有 基础 知识 ， 又 提供 实战 案例 。 主 要 内 容 包 括 : 
机 器 学 习 基 本 概念 、 原 理 ，Weka、Mahout、Spark 等 常见 机 器 学 习 库 的 用 法 ， 各 类 机 器 学 习 常 见 任务 ， 包 











括 分 类 、 预 测 预报 、 购 物 篮 分 析 、 检 测 异常 、 行 为 识别 、 图 像 识 别 以 及 文本 分 析 。 最 后 还 提供 





资源 、 各 种 技术 研讨 会 议 以 及 机 器 学 习 挑战 赛 等 进 阶 所 需 内 容 。 














本 书 适合 机 器 学 习 入 门 者 ， 尤 其 是 想 使 用 Java 机 器 学 习 库 进行 
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了 相关 Web 


前 

















了 中 


机 器 学 习 是 人 工 智能 的 一 个 分 支 , 它 在 算法 与 数据 的 协助 下 , 让 计算 机 像 人 类 一 样 学 习 和 行 














动 。 针 对 给 定 的 数据 集 ， 机 器 学 习 算法 会 学 习 数据 的 不 同属 性 ,并 对 以 后 可 能 遇 到 的 数据 属性 进 


行 推断 。 


本 书 教 你 如 何 使 用 Java 创 建 并 实现 机 咒 学 习 算法 , 既 有 基础 概念 的 i 


























解 , 也 有 示例 供 你 学 习 。 


当然 ， 还 会 介绍 一 些 常 用 的 机 器 学 习 库 ， 如 Weka、Apache Mahout、Mallet 等 。 阅 读本 书后 ， 你 
将 懂得 如 何 为 特定 问题 选择 合适 的 机 器 学 习 方 法 , 以 及 如 何 比较 与 评估 不 同 技 术 的 优 劣 。 书 中 还 
会 讲解 性 能 提升 技术 ， 包 括 输入 预 处 理 以 及 合并 不 同方 法 产生 的 输出 。 


我 们 将 探讨 使 用 Java 库 进行 机 器 学 习 的 技术 细节 ， 并 配 有 清晰 易 懂 的 示例 。 同 时 ， 你 还 将 学 
习 如 何 准备 要 分 析 的 数据 、 如 何 选 择机 器 学 习 方法 ， 以 及 如 何 衡量 流程 的 有 效 性 。 





























本 书 内 容 


























第 1 章 ” 机 器 学 习 应 用 快速 入 门 。 
习 的 应 用 流程 。 





解 机 融 学 习 的 基础 知识 、 常 见 概念 、 原 到 


， 以 及 机 顺 学 


第 2 章 ”面向 机 器 学 习 的 Java 库 与 平台 。 介 绍 各 种 机 顺 学 习 专 用 的 Java 库 与 平台 。 你 将 了 解 
每 个 库 提供 的 功能 ， 以 及 可 以 用 于 解决 哪些 问题 。 涉 及 的 机 器 学 习 库 有 Weka、Java-ML、Apache 
Mahout、Apache Spark 、Deeplearning4j 和 Mallet。 





第 3 章 ”基本 算法 一 一 分 类 、 回 归 和 








聚 类 。 从 最 基本 的 机 器 学 习 任务 入 手 ， 使 用 小 巧 又 易 懂 





的 数据 集 ， 介 绍 分 类 、 回 归 和 到 类 的 关键 算法 。 
第 4 章 ”利用 集成 方法 预测 客户 关系 。 深 入 研究 一 个 真实 的 客户 营销 数据 库 ， 目 标 是 对 可 能 
































流失 以 及 可 进行 追加 推销 与 交叉 推销 的 客户 进行 预测 。 我 们 将 使 用 集成 方法 解决 这 个 问题 , 并 且 


采用 在 KDD Cup 竞 赛 中 获胜 的 解决 方案 。 














了 解 顾客 的 购买 行为 ， 并 讨论 如 何 将 这 种 方法 应 用 到 其 他 领域 。 


第 5 章 “ 关联 分 析 。 讲 解 如 何 使 用 关联 规则 挖掘 分 析 共 生 关 系 。 我 们 将 通过 “购物 篮 分 析 ” 





第 6 章 “使 用 Apache Mahout 制 作 推荐 引擎 。 讲 解 一 些 基本 概念 ， 帮 助 你 了 解 推荐 引擎 原 
理 ， 然 后 利用 Apache Mahout 实 现 两 个 应 用 一 一 基于 内 容 的 过 滤 与 协同 推荐 器 。 

第 7 章 欺诈 与 异常 检测 。 介 绍 异常 和 可 疑 模 式 检测 的 背景 ， 然 后 讲解 两 个 实际 应 用 一 一 保 
给 索赔 坎 诈 检测 与 网 站 流量 异常 检测 。 

第 8 章 ”利用 Deeplearning4j 进 行 图 像 识 别 。 介 绍 图 像 识 别 与 基本 的 神经 网 络 架 构 ， 然 后 讨 
论 如 何 利用 Deeplearning4j 库 实现 各 种 深度 学 习 架构 ， 以 实现 对 手写 体 数字 的 识别 。 

第 9 章 。 利 用 手机 传感器 进行 行为 识别 。 借 助 传感器 数据 解决 模式 识别 问题 。 这 一 章 介 绍 
为 识别 过 程 ， 讲 解 如 何 使 用 Android 设 备 收集 数据 ， 并 提出 一 个 分 类 模型 以 对 日 常生 活 行为 进行 
识别 。 

第 10 章 ”利用 Mallet 进 行文 本 挖掘 一 主题 模型 与 垃圾 邮件 检测 。 讲 解 文本 挖 所 的 基础 知 
识 ,介绍 文本 处 理 管道 ， 演 示 如 何 将 其 应 用 于 两 个 实际 问题 ( 主题 建 模 与 文档 分 类 )。 

第 11 章 机 器 学 习 进 阶 。 这 是 全 书 最 后 一 章 ， 提 供 关 于 如 何 部 署 模型 的 实用 建议 ， 并 进一步 
给 出 提示 ， 告 诉 你 去 哪里 寻找 更 多 资源 、 资 料 、 场 所 和 技术 ， 以 便 深 入 了 解 机 器 学 习 。 






































阅读 前 提 

为 了 实际 运行 书 中 示例 ， 你 需要 一 台 安 装 有 JDK 的 个 人 计算 机 。 所 有 能 下 载 的 示例 与 源 代码 
都 假定 你 使 用 的 是 支持 Maven ( 一 个 依赖 管理 与 自动 创建 工具 ) 与 Git ( 版 本 控制 系统 ) 的 Eclipse 
IDE 开 发 环境 。 各 章 示 例 依赖 Weka 、Deeplearning4j 、Mallet、Apache Mahout 等 各 种 库 。 关 于 如 何 
获取 与 安装 这 些 库 ， 会 在 各 章 首 次 用 到 它们 时 进行 讲解 。 


























读者 对 象 


本 书 为 那些 想 学 习 如 何 使 用 Java 机 器 学 习 库 进行 数据 分 析 的 人 而 写 。 或 许 你 已 经 对 机 央 学 习 
有 了 一 点 了 解 ， 但 从 未 用 过 Java; 又 或 许 你 惟 得 一 点 Java， 而 在 机 器 学 习 方面 是 个 新 手 。 不 论 你 
改 于 哪 种 情况 ,本 书 都 能 让 你 快速 上 手 ， 并 提供 必需 的 技能 ， 让 你 能 够 成 功 创建 、 定 制 ， 以 及 在 
实际 生活 中 部 署 机 噩 学 习 应 用 。 如 果 你 懂得 一 点 基本 的 编程 知识 以 及 数据 挖掘 相关 概念 会 更 好 ， 
但 不 要 求 你 必须 拥有 与 数据 挖掘 程序 包 相 关 的 开发 经 验 。 
































配套 资料 


本 书 专 门 配 有 一 个 在 线 支 持 网 站 (http:/machine-learning-in-java.com ), 从 中 可 以 找到 所 有 示 
例 代 码 、 勘 误 表 ， 以 及 其 他 人 门 资料 。 

















排版 约定 


本 书 中 ,你 会 发 现 许 多 不 同体 例 ， 它 们 用 于 区 分 不 同类 型 的 信息 。 下 面 给 出 一 些 例子 ,并 对 
其 含义 进行 说 明 。 

正文 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、 伪 URL、 用 户 输入 
和 Twitter 用 户 名 显示 如 下 : 














“比如 ，Bob 拥 有 height、eye color、hobbies 三 个 属性 ， 对 应 值 依次 为 185cm、blue、 
climbing 与 sky dling 5 


代码 块 表示 如 下 : 


Bob={ 

height: 185cmv 

eye color: blue, 

hobbies: climbing, sky diving 
} 


所 有 命令 行 输 入 或 输出 写成 如 下 形式 : 

Ne eo ks OE te Te lie Ee ben a No Op i er ee 

新 术语 与 重要 词语 使 用 黑体 显示 。 你 在 屏幕 上 看 到 的 词 ， 比 如 菜单 或 对 话 框 中 的 词 ， 在 正文 
中 显示 如 下 :“ 在 项 目 属 性 上 点 击 鼠 标 右键 ， 选 择 Java Build Path， 单 击 Libraries 选 项 卡 ， 


选择 aaa External JRRs。” 























警告 或 重要 的 注意 事项 。 ] 


提示 和 技巧 。 ] 
读者 反馈 


欢迎 提供 反馈 ， 请 将 你 对 本 书 的 看 法 告诉 我 们 : 哪些 方面 是 你 喜欢 的 ， 哪 些 方面 你 不 喜欢 。 
读者 反馈 对 我 们 来 说 很 重要 ， 因 为 这 可 以 帮助 我 们 推出 更 符合 读者 需求 的 著作 。 


要 给 我 们 提供 反馈 ,只 需 向 feedback@packtpub.com 发 送 电 子 邮 件 , 并 在 邮件 主题 中 指出 书 名 。 


如 果 你 有 擅长 的 主题 ， 并 有 志 于 写 书 或 扎 稿 ， 请 参阅 www.packtpub.com/authors 的 撰 稿 指南 。 
























































读者 支持 
购买 本 社 图 书后 ， 你 将 获得 各 种 帮助 ， 让 手中 图 书 最 大 限度 地 发 挥 功 效 。 





下 载 示例 代码 


你 可 以 从 本 书 配套 网 站 ( http:/machine-learning-in-java.com ) 下 载 书 中 示例 代码 。 导 航 到 
Downloads 版 块 ， 点 击 到 Git 仓 库 链接 。 


当然 , 你 也 可 以 使 用 自己 的 账号 登录 http://www.packpub.com 网 站 下 载 本 书 示例 代码 。 不论 你 
在 哪里 购买 本 书 ， 都 可 以 访问 http://www.packtpub.com/support。 注 册 之 后 ， 我 们 会 使 用 电子 邮件 
将 示例 代码 直接 发 送 给 你 。 


下 载 示例 代码 时 ， 请 按照 如 下 步骤 进行 : 


(1) 使 用 你 的 电子 邮件 地 址 与 密码 登录 我 们 的 网 站 ， 如 果 尚 未 加 入 会 员 ， 请 先 注册 加 入 ; 
(2) 移动 鼠标 到 SUPPORT 菜 单 之 上 ; 

(3) 点 击 Code Downloads & Errata; 

(4) 在 Search 文 本 框 中 输入 书 名 ; 

(5) 选择 你 想 下 载 代 码 文件 的 图 书 ; 

(6) 从 下 拉 菜 单 中 选择 你 购买 本 书 的 地 点 ; 

(7) 点 击 Code Download。 


示例 文件 下 载 完 成 后 ， 请 使 用 如 下 最 新 版 本 的 解压 缩 软件 对 文件 进行 解压 。 









































口 WinRAR/7-Zip for Windows 
口 Zipeg/iZip/UnRarX for Mac 
口 7-Zip/PeaZip for Linux 





勘误 


虽然 我 们 力图 让 图 书 内 容 准 确 无 误 , 但 错误 仍 不 可 避免 。 如 果 你 在 本 社 图 书 中 发 现 错误 ( 包 
括 正文 和 代码 )， 请 告诉 我 们 , 我们 将 感激 不 尽 。 你 这 样 做 不 仅 可 以 让 其 他 读者 免 遭 同样 的 挫折 ， 
还 可 帮助 我 们 改进 该 书 的 后 续 版 本 。 无 论 你 发 现 什么 错误 ， 都 请 告诉 我 们 。 为 此 ， 可 以 访问 
http://www.packtpub.com/submit-errata， 输 入 书 名 ， 单 击 链接 Errata Submission Form， 再 输入 错误 
详情 。 提 交 的 勘误 得 到 确认 后 ， 将 被 上 传 到 我 们 的 网 站 或 添加 到 既 有 的 勘误 列表 。 


要 查看 已 提交 的 勘误 , 请 访问 https://www.packtpub.com/books/content/support， 并 在 搜索 框 中 
输入 书 名 ，Errata 栏 将 列 出 你 搜索 的 信息 。 







































































打击 盗版 


网 上 散布 的 盗版 材料 是 各 类 媒体 屡 禁 不 绝 的 问题 。 在 保护 版 权 和 许可 方面 , 本 社 的 态度 非常 
严肃 。 如 果 你 在 网 上 看 到 本 社 作品 的 非法 复制 品 , 请 马上 把 网 址 或 网 站 名 告诉 我 们 ， 以 便 我 们 能 
够 采取 补救 措施 。 
请 通过 copyri ght@ packtpub.com 与 我 们 取得 联系 ， 并 提供 可 疑 的 盗版 材料 链接 。 
感谢 你 为 保护 我 们 的 作者 提供 的 帮助 ， 也 十 分 感激 对 于 我 们 提供 有 价值 内 容 的 能 力 给 予 的 
保护 。 


























只 要 有 与 本 书 相 关 的 问题 ， 都 可 通过 questions@packtpub.com 与 我 们 联系 ， 我 们 将 尽力 解决 。 


电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 
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本 昔 介 绍 机 器 学 习 的 基础 知识 , 包括 常见 主题 与 概念 , 这 些 内 容 将 让 你 更 容易 理解 相关 逻辑 
以 及 所 讲 主 题 ,本 章 的 目标 是 让 你 快速 了 解 应 用 机 器 学 习 的 详细 步骤 ,掌握 机 带 学 习 的 主要 原理 。 
本 章 涵盖 以 下 内 容 : 


口 介绍 机 带 学 习 及 其 与 数据 科学 的 关系 
口 讨论 机 天 学 习 应 用 的 基本 步骤 
口 讨论 所 处 理 数据 的 类 型 及 其 重要 性 
口 讨论 收集 数据 以 及 对 数据 进行 预 处 理 的 方法 

口 使 用 机 带 学 习 理 解数 据 

口 使 用 机 器 学 习 从 数据 获取 有 用 信息 并 创建 预测 咒 


如 果 你 已 经 熟悉 机 融 学 习 ， 并 急于 开始 编写 代码 ， 请 跳 过 本 章 内 容 ,直接 阅读 其 他 章节 。 然 
而 ， 如 果 你 想 重 温 这 些 内 容 或 者 搞 清 一 些 概念 ， 强 烈 建议 你 认真 学 习 本 章 。 












































1.1 机 器 学 习 与 数据 科学 


如 今 , 每 个 人 都 在 谈论 机 带 学 习 与 数据 科学 。 那 么 , 机 带 学 习 究 竞 是 什么 ? 它 与 数据 科学 有 
着 怎样 的 联系 呢 ? 这 两 个 术语 常 被 混淆 , 因为 它们 经 常 使 用 相同 的 方法 , 有 着 明显 的 重合 。 因此 ， 
下 面 先 区 分 这 两 个 术语 。 


Josh Wills 在 Twitter 上 说 : 

















“所 谓 的 数据 科学 家 指 这 样 一 类 人 ， 他 们 比 软件 工程 师 更 懂 统计 学 ， 比 统计 学 家 更 
懂 软 件 工 程 。 
更 具体 地 说 ,数据 科学 包含 从 数据 获取 知识 的 整个 过 程 , 它 综合 运用 统计 学 、 计 算 机 科学 以 


及 其 他 领域 的 各 种 方法 ,帮助 人 们 从 数据 中 获取 有 用 的 知识 与 信息 。 事实 上 , 数据 科学 是 一 个 不 
断 反 复 的 过 程 ， 包 括 数据 的 采集 、 清 洗 、 分 析 、 可 视 化 和 部 署 。 
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另 一 方面 , 机 器 学 习 主 要 涉及 数据 科学 的 分 析 与 建 模 阶 段 使 用 的 通用 算法 与 技术 。 对 于 机 需 
学 习 ，Arthur Samuel 在 1959 年 提出 如 下 定义 : 














“机 器 学 习 是 指 研究 、 设 计 与 开发 某 些 算法 ， 让 计算 机 获得 学 习 的 能 力 ， 而 不 需要 
明确 的 编程 

1.1.1 机 器 学 习 能 够 解决 的 问题 
机 器 学 习 方 法 主要 有 如 下 三 种 : 


口 监督 学 习 
口 无 监督 学 习 


口 强化 学 习 











给 定 一 组 样本 输入 X 与 它们 的 结果 7Y， 监 督学 习 的 目标 是 产生 一 个 通用 的 映射 函数 /， 使 得 每 
一 个 输入 都 有 对 应 的 确定 输出 ， 即 f XY。 


监督 学 习 的 一 个 应 用 例子 是 检测 信用 卡 欺诈 。 学 习 算 法 会 学 习 所 有 带 有 “正常 ”或 “可 疑 ” 
标记 ( 向 量 Y) 的 信用 卡 交易 〈 矩阵 xX )， 并 最 终 产 生 一 个 决策 模型 ( 即 f 消 数 )， 对 未 见 过 的 交易 
打 标 记 (“正常 ”或 “可 疑 ”)。 


相反 ， 无 监督 学 习 算法 所 学 的 数据 没有 给 定 的 结果 标签 Y， 它 主要 学 习 数 据 的 结构 ， 比 如 将 
相似 的 输入 数据 归 入 某 个 聚 类 。 因 此 , 使 用 无 监督 学 习 能 够 发 现 隐藏 在 数据 中 的 模式 。 无 监督 学 
习 的 一 个 应 用 例子 是 基于 物品 (Item-based ) 的 推荐 系统 ， 其 学 习 算 法 会 发 现 购物 者 一 同 购买 的 
相似 商品 ， 比 如 购买 了 书 A 的 人 也 购买 了 书 B。 


强化 学 习 从 完全 不 同 的 角度 处 理学 习 过 程 。 它 假设 有 一 个 智能 体 ( agent, 可 以 是 机 器 人 、 自 
动 程序 或 计算 机 程序 ) 与 动态 环境 进行 交互 ， 以 实现 某 个 特定 目标 。 环 境 由 一 组 状态 描述 ， 智 能 
体 可 以 做 出 不 同行 为 ， 以 从 一 种 状态 变 为 另 一 种 状态 。 有 些 状 态 被 标 为 目标 状态 ， 如 果 智 能 体 实 
现 了 这 种 状态 ， 就 会 获得 很 大 的 奖励 ; 而 在 其 他 状态 中 , 智能 体 得 到 的 奖励 很 少 或 没有 ,甚至 还 
会 被 “惩罚 ”"。 强 化 学 习 的 目标 是 找到 最 优 策 略 ， 即 映射 函数 ,指定 每 个 状态 要 采取 的 行为 动作 ， 
而 没有 指导 者 ( teacher ) 明确 告知 这 样 做 是 否 会 实现 目标 状态 。 强 化 学 习 的 一 个 例子 是 汽车 自动 
驾驶 程序 ， 其 中 “状态 ”与 “驾驶 条 件 ”( 比如 当前 速度 、 路 况 信息 、 周 于 交通 状况 、 速 度 限 制 、 
路 障 ) 相对 应 ， 行 为 会 驱动 汽车 做 出 诸如 左 转 、 右 转 、 停 止 、 加 速 、 前 行 等 动作 。 学 习 算法 会 产 
生 一 个 策略 ， 指 定 汽车 在 特定 驾驶 条 件 下 要 采取 的 动作 。 

本 书 中 , 我 们 把 学 习 重 点 放 在 监督 学 习 与 无 监督 学 习 上 ， 因为 它们 有 许多 相同 的 概念 。 如 果 


强化 学 习 激 起 了 你 的 兴趣 ， 建 议 阅 读 Richard S. Sutton 与 Andrew Barto 二 人 合 写 的 Reinforcement 
Learning: An Introduction， 它 是 一 本 很 好 的 入 门 书 。 
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1.1.2 机 器 学 习 应 用 流程 


本 书 讲解 的 重点 是 机 器 学 习 的 应 用 。 我 们 将 提供 切实 可 用 的 技能 , 帮助 你 顺利 地 将 学 习 算 法 
应 用 于 各 种 不 同 的 情景 设置 。 相 比 于 机 融 学 习 相 关 的 理论 与 数学 知识 , 我 们 将 把 更 多 时 间 用 来 学 
习 如 何 将 机 器 学 习 技术 应 用 于 具体 实践 。 借助 这 些 实际 应 用 技术 , 你 可 以 让 机 器 学 习 在 具体 应 用 
中 发 挥 强大 作用 。 我 们 把 讲解 重点 放 在 监督 学 习 与 无 监督 学 习 上 , 涵盖 从 数据 科学 到 创建 机 带 学 
习 应 用 流程 的 所 有 必需 步骤 。 


标准 的 机 顺 学 习 应 用 流程 就 是 回答 一 系列 问题 ， 可 概括 成 如 下 5 个 步骤 。 


(1) 数据 与 问题 定义 : 第 一 步 是 要 问 一 些 有 趣 的 问题 。 你 试图 解决 的 问题 是 什么 ” 它 为 何 重 
要 ? 哪 种 形式 的 结果 能 够 回答 你 的 问题 ? 回答 是 简单 的 “是 与 否 ” 吗 ?你 需要 从 现 有 问题 中 挑选 
吗 ? 

































































(2) 数据 收集 : 一 旦 有 问题 要 解决 ， 你 就 需要 使 用 相关 数据 。 问 一 问 自己 ， 哪 种 数据 能 够 帮 
助 你 回答 问题 ,你 能 从 现 有 可 用 来 源 获取 所 需 数据 吗 ? 你 必须 对 多 个 来 源 进行 合并 吗 ? 你 必须 生 
产 数据 吗 ? 存在 取样 偏差 吗 ? 你 需要 多 少数 据 ? 


(3) 数据 预 处 理 : 数据 预 处 理 的 第 一 项 任务 是 数据 清洗 ， 比 如 填补 缺失 值 、 平 整 噪声 数据 、 
移 除 异 常 值 、 解 决 数据 一 致 性 。 通 常 ， 随 后 会 有 对 多 个 数据 源 的 整合 以 及 数据 转换 ,包括 把 数据 
转换 到 特定 范围 ( 数据 标准 化 )、 将 数据 分 成 一 系列 值 段 ( 数据 离散 化 )、 降 低 数据 维 数 。 


(4) 利用 无 监督 学 习 与 监督 学 习 进 行 数据 分 析 与 建 模 : 数据 分 析 与 建 模 包括 无 监督 机 带 学 习 
与 监督 机 器 学 习 、 统 计 推断 和 预测 。 这 个 阶段 有 多 种 机 器 学 习 算 法 可 供 选用 ， 比 如 K 最 近邻 算 
法 、 朴 素 贝 叶 斯 算法 、 决 策 树 、 支 持 向 量 机 、 人 逻辑 回归 、K 均 值 算法 等 。 至 于 选用 哪 种 算法 ， 
取决 于 第 一 步 中 提 到 的 问题 定义 以 及 所 收集 的 数据 类 型 。 经 过 这 一 步 , 我 们 最 终 会 从 数据 推导 出 
模型 。 


(5) 模型 评价 : 最 后 一 步 是 对 模型 进行 评价 。 通 过 机 器 学 习 创 建 模 型 后 ， 接 下 来 检查 模型 对 
源 数据 的 拟 合 程度 。 如 果 模 型 的 针对 性 太 强 ， 即 对 训练 数据 过 拟 合 , 那么 它 对 新 数据 的 预测 效果 
就 很 有 可 能 比较 差 ; 如 果 模 型 大通 用 , 这 意味 着 模型 对 训练 数据 欠 拟 合 。 比 如 ， 向 欠 拟 合 的 天 气 
预测 模型 询问 加 利 福 尼 亚 州 的 天 气 时 ， 得 到 的 回答 总 是 “晴朗 ”"。 大 多 数 时 候 这 个 回答 是 对 的 ， 
但 就 有 效 预 测 天 气 来 说 ,这 个 模型 真 的 没什么 用 。 这 一 步 的 目标 是 准确 评价 模型 ,确保 模型 面 对 
新 数据 也 能 正常 工作 。 进 行 模型 评价 时 ,常用 的 方法 有 独立 测试 、 训 练 集 、 交 又 验证 、 留 一 法 交 
又 验证 。 


接 下 来 , 我们 将 详细 讲解 每 个 步骤 , 并 且 尝 试 理解 机 器 学 习 应 用 流程 过 程 中 必须 回答 的 问题 
类 型 ， 还 要 了 解 与 数据 分 析 、 评 佑 相关 的 概念 。 
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1.2 ”数据 与 问题 定义 
简单 地 说 ， 数 据 就 是 一 系列 测量 值 ， 表 现形 式 多 样 ， 比 如 数值 、 文 字 、 测 量 值 、 观 测 值 、 事 














物 描 述 、 图 像 等 。 
测量 尺度 
数据 最 常见 的 表示 方式 是 使 用 一 组 属性 值 对 。 请 看 如 下 例子 : 
Bob={ 
hei ght: 185cm, 
eye color: blue, 
hobbies: climbing, sky diving 
} 
Bob 拥 有 hei ght 、eye color 、hobbi es 三 个 属性 ， 它 们 对 应 的 值 依次 为 185cm、bl ue 、 





climbing,sky diving。 























上 面 这 组 数据 可 以 简单 表示 如 下 表 。 表格 的 列 对 应 属性 或 特征 , 表格 的 行 对 应 特定 的 数据 样 
本 或 实例 。 监 督 机 器 学 习 中 ， 属 性 代表 类 或 者 目标 变量 ， 其 信和 是 我 们 想 从 其 他 属 性 值 (X) 进行 
预测 得 到 的 结果 (了)， 如 表 1-1 所 示 。 
表 1-1 示例 列表 
姓 名 身高 [cm] 眼球 颜色 兴趣 爱好 
Bob 185.0 Blue Climbing, sky diving 
Anna 163.0 Brown Reading 





我 们 首先 注意 到 的 是 属性 值 的 类 型 。 比 如 ， 











身高 是 一 个 数值 ， 眼 球 颜 色 是 一 个 文本 ， 兴 趣 爱 





好 是 一 个 列表 ,为 了 更 好 地 理解 属性 值 的 类 型 ,下 面 详细 了 解数 据 或 测量 尺度 的 不 同类 型 。 Stevens 





(1946 ) 定义 了 如 下 4 种 测量 尺度 ， 它 们 的 表现 属 怕 





在 不 断 增 加 。 


称 名 数据 ( Nominal data ) 相互 排斥 ， 但 不 分 顺序 ， 比 如 眼球 颜色 、 婚 姻 状况 、 汽 车 的 品 
ss 
口 顺序 数据 ( Ordinal data ) 是 数据 顺序 有 意义 的 分 类 数据 ， 但 值 之 间 没 有 区 别 ， 
程度 、 学 习 成 绩 字 母 等 级 、 服 务 质量 评级 、IMDB 电 影评 分 等 。 
口 等 距 数 据 ( Interval data ) 中 两 个 值 之 间 的 不 同 具 有 意义 ， 但 是 无 
标准 化 后 的 考试 分 数 、 华 氏 温 度 等 
口 等 比 数据 ( Ratio data ) 拥有 等 中 变量 量 (interval variable ) 的 所 有 属性 ， 并 且 还 有 明确 的 
“0 点 ”定义 。 变 量 为 0 时 ， 表 示 该 变量 代表 的 某 种 事物 或 特征 不 存在 。 身 高 、 年 龄 、 股 票 
价格 、 每 周 伙食 支出 等 都 是 等 比 变量 


比如 疼痛 





























“绝对 0” 概 念 。 比 如 
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我 们 为 什么 要 关注 测量 尺度 呢 ?7 机 器 学 习 在 很 大 程度 上 依赖 于 数据 的 统计 属性 , 因此 应 该 注 oe 
意 每 个 数据 类 型 自身 具有 的 限制 。 有 些 机 器 学 习 算法 只 能 被 应 用 到 测量 尺度 的 一 个 子 集 上 。 


表 1-2 总 结 了 每 种 测量 类 型 的 主要 操作 与 统计 特性 。 








表 1-2 不 同 测量 类 型 的 主要 操作 与 统计 特性 
特 性 称 名 顺序 等 ” 距 等 比 
频率 分 布 Y y 
中 位 数 和 众 数 y 
值 顺 序 已 知 y 
每 个 值 之 间 的 不 同 可 以 量化 
值 可 以 加 减 
值 可 以 乘除 
拥有 真 0 点 


此 外 , 称 名 数据 与 顺序 数据 对 应 于 离散 值 ， 而 等 距 数据 与 等 比 数据 还 可 以 对 应 于 连续 值 。 监 
督学 习 中 , 我 们 想 要 预测 的 属性 值 的 测量 太 度 决定 哪 种 机 器 算法 可 用 。 例 如 ,从 有 限 列表 预测 离 
散 值 称 为 “分 类 ”,， 它 可 以 使 用 决策 树 算法 实现 ; 而 预测 连续 值 称 为 “回归 ”， 可 以 使 用 模型 树 算 
法 实现 。 











ee ee es 














1.3 数据 收集 


那么 , 数据 从 何 而 来 呢 ? 我 们 有 两 种 选择 : 从 现 有 源 观 察 并 获取 数据 , 或 者 通过 调查 、 模 拟 、 
实验 生成 数据 。 下 面 详细 学 习 这 两 种 方法 。 


1.3.1 发现 或 观察 数据 


我 们 可 以 从 很 多 地 方 发 现 或 观察 到 数据 , 互联 网 就 是 最 明显 的 数据 源 。 英 特 尔 (2013 ) 给 出 
图 1-1， 显 示 通 过 不 同 互联 网 服务 收集 的 海量 数据 。2013 年 ， 数 字 设 备 产 生 了 4 泽 字 节 (1021=10 
亿 太 字 节 ) 的 数据 。2017 年 ， 人 网 设备 数量 预计 达到 地 球 总 人 数 的 3 倍 ， 这 些 设 备 产 生 与 收集 的 
数据 量 将 进一步 增加 。 

有 多 种 方法 可 以 从 互联 网 获取 数据 。 
口 从 维基 百科 、IMDb 、Million Song Dataset 等 网 站 批量 下 载 。 
口 通过 API(《 纽 约 时 报 》 推 特 、 脸 书 、Foursquare ) 访问 数据 。 
口 网 页 抓 取 : 从 网 页 上 抓 取 公 开 、 非 敏感 、 匿 名 数据 是 可 行 的 。 抓 取 之 前 ， 请 认真 阅读 版 

权 条 款 与 完整 的 引用 信息 。 
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图 1-1 通过 不 同 互联 网 服务 收集 的 海量 数据 


找到 数据 之 后 , 我 们 面 对 的 主要 问题 是 要 花 时 间 与 空间 积累 数据 。 这些 数据 只 表明 发 生 了 什 
么 ， 而 不 收集 意图 、 动 机 或 内 在 动机 。 最 后 ， 这 样 的 数据 中 可 能 充斥 着 噪声 ， 它 们 可 能 不 完整 、 
不 一 致 ， 甚 至 会 随时 间 发 生变 化 。 








获取 数据 的 另 一 种 方法 是 从 各 种 传感器 收集 测量 数据 ， 比 如 移动 设备 中 的 惯性 和 位 置 传 感 
器 、 环 境 传感器 、 软 件 代 理 关 键 性 能 监控 指示 器 等 。 


1.3.2 ”生成 数据 


另 一 种 替代 方法 是 你 自己 生成 数据 ， 比 如 通过 调查 。 做 调查 设计 时 ,我 们 必须 把 注意 力 放 在 


数据 采集 上 , 明确 被 调查 的 对 象 是 谁 。 我 们 只 能 从 那些 愿意 参与 调查 并 回答 问题 的 被 调查 者 处 获 


取 数 据 ， 并 且 ， 被 调查 者 可 以 做 出 符合 他 们 自身 形象 与 研究 者 期 望 的 回答 。 
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其 次 , 我 们 也 可 以 通过 模拟 收集 数据 。 这 个 过 程 中 , 领域 专家 在 微观 水 平 上 指定 用 户 行为 模 
型 。 例 如 ， 和 群体 模拟 (crowd simulation ) 需要 指定 不 同类 型 的 用 户 在 群体 中 如 何 行 动 ， 比 如 是 随 
大 流 还 是 伺机 逃离 等 。 接 着 在 不 同 条 件 下 运行 模拟 , 观察 不 同 条 件 下 会 发 生 什么 ( Tsai 等 , 2011 )。 
模拟 适用 于 研究 宏观 现象 与 突现 行为 (emergentbehavior )， 然 而 这 些 模拟 往往 很 难 在 实际 生活 中 
进行 验证 。 


此 外 ,你 可 以 设计 一 些 实验 , 彻底 覆盖 所 有 可 能 的 结果 ,让 所 有 变量 保持 不 变 , 一 次 只 操作 
一 个 变量 。 使 用 这 种 方法 的 代价 很 高 ， 但 通常 都 能 得 到 质量 最 好 的 数据 。 





























1.3.3 采样 陷阱 


收集 数据 时 可 能 碰 到 许多 陷阱 。 为 了 证 实 这 一 点 , 我 们 先 设想 下 面 一 个 场景 。 假设 存在 一 个 
通用 的 、 不 成 文 的 规则 ,用 于 在 学 生 之 间 免 费 发 送 普通 邮件 。 如 果 你 在 贴 邮票 的 地 方 写 上 “学 生 
到 学 生 ”"， 这 封 邮件 就 会 被 免费 投递 到 接收 方 。 现 在 ,假设 雅 各 布 给 艾 玛 发 送 了 一 套 明信片 ， 并 
且 假 设 艾 玛 真 的 收 到 了 一 些 明信片 。 于 是 她 就 断定 所 有 的 明信片 都 寄 到 了 ,并且 认 为 规则 是 真实 
有 效 的 。 也 就 是 说 ， 艾 玛 基 于 自己 收 到 明信片 这 一 事实 就 推断 所 有 明信片 都 被 寄 到 ， 然 而 她 并 没 
有 那些 雅 各 布 寄 出 但 未 投递 到 的 明信片 信息 。 因 此 ， 艾 玛 无 法 在 推断 时 把 它们 考虑 进去 。 艾 玛 经 
历 的 就 是 “幸存 者 偏差 ， 即 她 只 依据 “幸存 ”的 数据 得 出 结论 。 需 要 指出 的 是 ， 使 用 “学 生 到 
学 生 ” 邮 票 邮 寄 的 明信片 上 都 印 有 带 圆圈 的 字母 T， 这 表示 “ 欠 邮 资 "， 邮 资 应 该 由 接收 方 支付 ， 
包括 小 额 罚金 。 然 而 ， 邮 政 公司 常常 要 付出 更 多 代价 收取 这 些 费 用 ， 因 此 一 般 不 会 这 样 做 
(Magalhaes，2010 )。 


另 一 个 例子 来 自 一 项 研究 ， 这 项 研究 发 现 平均 死亡 年 龄 最 低 的 职业 是 “学 生 ”。 做 学 生 不 会 
造成 你 在 年 纪 很 小 的 时 候 死 亡 , 只 能 说 明 你 还 年 轻 。 这 才 是 学 生 这 个 群体 平均 死亡 年 龄 低 的 原因 
(Gelman 与 Nolan ，2002 )。 


此 外 ,一 项 研究 发 现 ， 发 生 事故 的 司机 中 ， 只 有 1.5% 报 告 说 他 们 当时 正在 使 用 手机 ， 而 有 
10.9% 的 司机 报告 说 是 车 中 男 一 名 乘客 分 散 了 他 们 的 注意 力 。 据 此 ， 我 们 能 推断 说 ， 司 机 驾车 
时 使 用 手机 比 与 另 一 个 乘客 交谈 更 安全 吗 ? ( Uts，2003 ) 为 了 回答 这 个 问题 ， 我 们 需要 知道 
手机 使 用 的 盛行 率 。 当 时 收集 数据 期 间 ， 相 比 于 开车 时 使 用 手机 ， 司 机 更 有 可 能 与 车 中 的 另 一 


个 人 进行 交谈 。 



































































































































1.4 数据 预 处理 


数据 预 处 理 的 目标 是 , 用 最 可 行 的 方式 为 机 器 学 习 算法 准备 数据 ,因为 并 非 所 有 算法 都 可 以 
用 于 人 处 理 缺 少数 据 、 额 外 属性 以 及 非 标 准 值 。 
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1.4.1 数据 清洗 
数据 清洗 也 叫 数据 整理 、 数 据 清理 ， 处 理 过 程 如 下 : 

口 识别 不 准确 、 不 完整 、 不 相关 、 已 损坏 的 数据 ， 并 在 进一步 处 理 之 前 移 除 ; 

口 分 析 数 据 ， 提 取 感 兴趣 的 信息 ， 或 者 验证 数据 格式 是 否 合法 ; 

口 将 数据 转换 为 常见 的 编码 格式 ， 比 如 utt-8 、int32 、 时 标 或 者 标准 范围 ; 

口 将 数据 转换 为 常见 数据 模式 ， 比 如 如 果 收 集 的 温度 数据 来 自 不 同类 型 的 传感器 ,那么 可 
能 需要 将 其 变换 为 具有 相同 结构 的 数据 。 


接 下 来 ， 看 看 更 具体 的 数据 预 处 理 步 又 。 





























1.4.2 ”填充 缺失 值 


一 般 来 说 ， 对 于 缺失 值 ， 机 顺 学 习 算 法 工作 得 不 是 很 好 。 但 有 极 少数 例外 ， 比 如 决策 树 、 朴 
素 贝 叶 斯 分 类 器 ， 以 及 一 些 基于 规则 的 学 习 器 等 。 了 解 一 个 值 缺 失 的 原因 至 关 重 要 ,这些 原因 可 
能 是 多 方面 的 ， 比 如 随机 误差 、 系 统 误 差 、 传 感 器 噪声 等 。 一 旦 找到 缺失 原因 ， 就 可 以 采用 多 种 
方法 处 理 缺 失 值 ， 常 见 处 理 方法 如 下 。 


口 移 除 实例 : 如 果 有 足够 多 的 数据 ， 并 且 其 中 只 有 几 个 非 相 关 实例 有 一 些 缺 失 值 ， 那 么 移 

除 这 些 实例 是 安全 的 。 

口 移 除 属性 : 当 大 部 分 值 缺 失 、 值 为 常量 ， 或 者 当前 属性 与 另 一 个 属性 有 强 相 关 关系 时 ， 

移 除 该 属性 是 有 意义 的 。 

口 指派 为 特殊 值 N/A: 有 时 缺失 值 是 由 正当 理由 引起 的 ， 比 如 值 超出 指定 范围 、 离 散 属性 值 
未 定义 、 无 法 获取 或 测量 得 到 的 值 一 一 这 个 值 也 可 能 是 指示 融 〈indicator )。 比 如 ， 一 个 
人 从 来 不 评价 电影 ， 那 么 他 对 这 部 电影 的 评分 就 不 存在 。 

口 填 入 属性 平均 值 : 如 果 拥 有 的 实例 数量 有 限 ， 那 么 不 能 移 除 实 例 或 属性 。 这 种 情况 下 ， 

我 们 可 以 对 缺失 值 进行 估算 ， 比 如 把 属性 的 平均 值 或 相似 实例 的 平均 值 作为 缺失 值 进行 
































































































































填充 。 
口 依据 其 他 属性 值 进行 预测 : 如 果 属 性 有 时 间 依 赖 关 系 ， 那 么 可 以 根据 之 前 的 已 有 值 预测 
缺失 值 。 


如 上 所 述 ， 出 现 缺 失 值 的 原因 多 种 多 样 ， 因 此 了 解 值 缺 失 或 损坏 的 原因 非常 重要 。 


1.4.3 ”剔除 异常 值 


异常 值 是 指数 据 中 那些 与 其 他 数值 相 比 有 较 大 差异 的 数值 , 这 些 异 常 值 对 所 有 学 习 算 法 都 有 
不 同 程度 的 影响 。 蜡 常 值 可 能 是 极端 值 ， 可 以 通过 置信 区 域 检 测 ， 并 可 借助 阔 值 剔除 。 最 好 的 方 
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法 是 先 对 数据 进行 可 视 化 ， 然 后 检查 可 视 化 图 形 ， 从 中 找 出 异常 值 。 图 1-2 的 可 视 化 图 形 是 个 例 
子 。 请 注意 ， 数 据 可 视 化 仅 适用 于 低 维 数据 。 
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图 1-2 可视化 图 形 





1.4.4 数据 转换 


数据 转换 技术 将 数据 集 转 换 为 机 器 学 习 算 法 要 求 的 格式 , 用 作 机 器 学 习 算 法 的 输入 。 数据 转 
换 甚至 可 以 帮助 算法 学 得 更 快 ， 获得 更 好 的 性 能 ， 比 如 标准 化 。 假 设 数据 服从 高 斯 分 布 , 采用 如 
下 方式 做 值 变换 : 均值 为 0， 标 准 差 为 1。 




















_ X—-mean(X) 
St.dev 


另 一 方面 ， 归 一 化 将 属性 值 按 比例 缩放 ， 使 之 落 和 一 个 小 的 特定 区 间 ， 通 常 是 [0, 1]。 


X 





X 一 min 





X= - 
max — min 





许多 机 带 学 习 工 具 箱 自动 对 数据 做 归 一 化 与 标准 化 处 理 。 

















最 后 一 个 变换 技术 是 离散 化 ， 用 于 将 一 个 连续 特征 的 范围 切 分 为 若干 区 间 。 为 什么 要 这 样 
做 ? 因为 有 些 算法 , 比如 决策 树 、 朴 素 贝 叶 斯 算法 , 更 擅长 处 理 离散 属性 。 最 常用 的 选取 区 间 ( 离 
散 化 ) 的 方法 如 下 。 


























口 等 宽 离 散 化 : 该 方法 将 连续 变量 的 值 域 划分 成 k 个 具有 相同 宽度 的 区 间 。 

口 等 频 离散 化 : 假设 有 N 个 实例 ，k 个 区 间 中 的 每 一 个 都 包含 大 约 N/k 个 实例 。 

口 最 小 炉 (度量 体系 的 混乱 程度 ) 离散 化 : 该 方法 会 递归 地 分 割 区 间 ， 直 到 区 间 分 割 引起 
的 炉 减 大 于 炉 增 (Fayyad 和 Irani1，1993 )。 


























其 中 , 前面 两 个 方法 需要 手工 指定 区 间 数 量 ,而 最 后 一 种 方法 则 自动 设置 区 间 数 量 。 但 后 者 
需要 分 类 变量 ， 这 意味 着 它 不 能 用 于 无 监督 机 顺 学 习 任务 。 


10 第 1 章 机 器 学 习 应 用 快速 入 门 





1.4.5 数据 归 约 


数据 归 约 用 于 处 理 大 量 属性 与 实例 , 属性 数 对 应 于 数据 集 的 维度 数 。 具有 较 低 预测 能 力 的 维 
度 不 仅 对 整个 模型 的 贡献 率 非常 小 , 还 会 带 来 许多 危害 。 比 如 , 一 个 拥有 随机 值 的 属性 可 能 产生 
一 些 随 机 模式 ， 这 些 随 机 模式 会 被 机 带 学 习 算 法 识别 。 


为 了 解决 这 个 问题 , 第 一 种 处 理 方法 是 把 这 些 属 性 剔除 , 换言之 , 只 保留 那些 最 看 好 的 属性 。 
这 个 过 程 称 为 特征 选取 或 属性 选取 ,具体 可 使 用 的 方法 有 ReliefF、 信 息 增益 、 基 尼 指 数 等 ,它们 
主要 面向 离散 属性 。 


另 一 个 处 理 方法 是 专注 于 连续 属性 ， 将 数据 集 从 原始 维度 转换 到 低 维 空间 。 例 如 ,假设 有 
一 组 三 维 空间 中 的 点 ， 我 们 可 以 将 其 映射 到 二 维 空间 。 这 个 过 程 中 会 丢失 一 些 信 息 ， 但 如 果 委 
三 个 维度 是 不 相关 的 ， 则 不 会 丢失 很 多 信息 ， 数 据 结构 与 相关 性 几乎 都 能 完美 保留 。 具 体 可 用 
方法 如 下 : 


口 奇异 值 分 解 ( SVD ) 
口 主 成 分 分 析 (PCA ) 
口 神经 网 络 自动 编码 器 ( Neural nets auto encoders ) 


数据 归 约 中 的 第 二 个 问题 是 数据 包含 太 多 实例 。 这 么 多 个 实例 可 能 是 重复 的 , 或 者 来 自 一 个 
非常 频繁 的 数据 流 。 解决 这 个 问题 的 方法 是 从 中 选用 实例 子 集 , 选择 时 要 保证 所 选 数据 的 分 布 与 
原 数 据 的 分 布 相似 , 更 重要 的 是 观测 的 过 程 类 似 。 减少 实 例 数 量 的 技术 包括 随机 数据 采样 、 数 据 
分 层 法 等 。 准 备 好 数据 后 ， 接 下 来 对 数据 进行 分 析 与 建 模 。 



































































































































1.5 无 监督 学 习 


无 监督 学 习 是 指 , 通过 数据 分 析 从 没有 标签 的 数据 中 发 现 隐藏 的 结构 。 由 于 数据 不 带 有 标签 ， 
所 以 我 们 无 法 通过 误差 测量 对 学 过 的 模型 做 评价 。 即 便 如 此 , 无 监督 学 习 仍 然 是 个 极其 强大 的 工 
具 。 你 是 否 曾经 好 奇 过 ， 亚 马 逊 是 如 何 预测 你 喜欢 什么 书 的 ? 在 你 还 未 做 出 选择 时 ，Nettlix 如 何 
知道 你 想 看 什么 ?这 些 问 题 的 答案 都 可 以 在 无 监督 学 习 中 找到 。 下 面 给 出 一 个 类 似 的 例子 。 









































1.5.1 查找 相似 项 目 
许多 问题 都 可 以 归结 为 查找 元 素 相 似 集 , 比如 购买 了 类 似 商品 的 顾客 包含 相 似 内 容 的 网 页 、 
含有 相似 对 象 的 图 像 、 访 问 过 类 似 网 站 的 用 户 等 。 


如 果 两 个 项 目 相距 非常 近 ， 就 可 以 将 其 视 为 是 类 似 的 。 主 要 问题 是 如 何 表 示 每 个 项 目 ， 以 及 
如 何 定义 项 目 之 间 的 距离 。 距 离 测 量 主 要 有 两 类 : 一 类 是 欧 氏 距离 (Euclidean distance )， 另 一 类 
是 非 欧 距离 (no-Euclidean distance )。 
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1. 欧 氏 距离 

1 维 欧 氏 空间 中 ， 两 个 元 素 之 间 的 距离 基于 元 素 在 这 个 空间 中 的 位 置 ， 常 称 为 “p- 范 数 距离 ” 
( p-norm distance )。 和 常用 的 两 个 距离 度量 是 L2 与 L1 范 数 距 离 。 

L2 范 数 也 叫 欧 氏 距离 ， 它 是 最 常用 的 距离 度量 ， 用 于 度量 二 维 空间 中 的 两 个 元 素 相 距 多 远 。 
它 是 两 个 元 素 在 每 个 维度 上 差 的 平方 和 的 平方 根 ， 计 算 公式 如 下 : 


L,norm d(a,b) = >a, 一 已) 


EL1 范 数 又 称 曼哈顿 距离 (Manhattan Distance )、 城 市 街区 距离 ( City Block Distance )、 出 租 
车 范 数 (Taxicab Norm )， 它 是 两 个 元 素 在 每 个 维度 上 差 的 绝对 值 之 和 ， 计 算 公 式 如 下 : 

































































Linorm d(a,b)= >," la -5 
2. 非 欧 距离 


非 欧 距离 基于 元 素 的 属性 ， 而 非 它们 的 空间 位 置 。 其 中 较为 著名 的 有 杰 卡 德 距 离 ( Jaccard 
Distance )、 余弦 距离 (Cosine Distance )、 编辑 距离 (Edit Distance )、 汉 明 距离 (Hamming Distance )。 


杰 卡 德 距 离 计算 两 个 集合 间 的 距离 。 首 先 ， 计 算 两 个 集合 的 杰 卡 德 相似 系数 ( Jaccard 
Similarity )， 它 被 定义 为 “两 个 集合 交集 的 元 素 个 数 除 以 并 集 的 元 素 个 数 ”"， 公 式 如 下 : 




















i 
AUB 


杰 卡 德 距离 被 定义 为 “1 减 去 杰 卡 德 相似 系数 "， 公 式 如 下 : 


ly 二 _AMB 
d(A,B)=1-sim(A,B)=1 i 
余弦 距离 也 称 为 余弦 相似 度 ( Cosine Similarity )。 两 个 向 量 的 余弦 距离 关注 的 是 它们 的 方向 ， 
而 非 大 小 。 因 此 ， 如 果 两 个 向 量 方向 一 致 ， 那 么 它们 的 余弦 相似 度 为 1， 而 两 个 垂直 向 量 的 余弦 
相似 度 为 0。 假设 有 两 个 多 维 点 ， 所 对 应 的 向 量 分 别 从 原点 (0, 0, 0,…, 0) 指 向 它们 所 在 的 位 置 。 两 
个 向 量 之 间 形 成 一 个 夹 角 ， 它 们 的 余弦 距离 就 是 向 量 的 标准 点 积 ， 如 下 : 

















AxB 
d(A,B)= arcos 一 一 一 
[Allal 
余弦 距离 通常 用 于 高 维特 征 空间 ， 比 如 文本 挖掘 。 一 个 文本 文档 代表 一 个 实例 ,特征 对 应 于 
不 同 单词 , 它们 的 值 对 应 于 单词 在 文档 中 出 现 的 次 数 。 通 过 计算 余弦 相似 度 ,我 们 能 够 了 解 两 个 
文档 内 容 的 相似 程度 。 
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编辑 距离 用 于 比较 两 个 字符 串 。 两 个 字符 串 a ( =aiazas…av ) 与 b (=bibzb3.….bs ) 之 间 的 距离 是 
指 ， 从 字符 串 a 转 成 字符 串 pb 所 需 的 最 少 编辑 操作 数 ， 人 允许 的 编辑 操作 包括 插入 一 个 字符 、 删 除 一 
个 字符 。 比 如 ， 有 两 个 字符 串 a=abcd 和 b=abbd， 将 字符 串 a 转 成 b 时 ， 必 须 先 删除 字符 串 b 中 的 第 
三 个 字母 bp， 然后 在 删除 位 置 插入 字 母 c。 整 个 过 程 中 没有 比 这 更 少 的 操作 数 了 ,所 以 字符 串 a 到 b 
的 编辑 距离 就 是 d(a, b)=2。 


汉 明 距离 用 于 比较 两 个 大 小 相同 的 向 量 , 计算 它们 不 同 的 维 数 。 换言之 , 该 距离 指 的 是 从 一 
个 向 量变 换 为 另 一 个 向 量 所 需 的 替换 数 。 


许多 距离 可 以 用 于 度量 各 种 属性 ， 比 如 相关 性 度量 两 个 元 素 之 间 的 线性 关系 ， 马 氏 距 高 
(Mahalanobis Distance ) 度量 一 个 点 与 其 他 点 所 服从 的 分 布 之 间 的 距离 ,SimRank 基 于 图 形 理 论 衡 
量 元 素 呈 现 结构 的 相似 程度 ， 等 等 。 正如 你 想 的 那样 ,为 你 的 问题 选择 并 设计 合适 的 相似 性 度量 
后 ， 就 完成 了 一 大 半 工 作 。A.A. Goshtasby 所 车 的 Image Registration: Principles, Tools and Methods 
一 书 的 第 2 章 中 ， 关 于 相似 性 度量 评估 的 讲解 令 人 印象 深刻 ， 可 以 参考 学 习 。 

3. 维 数 灾难 

维 数 灾难 是 指 我 们 拥有 大 量 特征 一 一 通常 有 成 千 上 百 个 一 一 时 , 这 些 特 征 会 产生 一 个 带 有 稀 
琉 数据 的 极 大 空间 ， 以 致 距离 异常 。 比 如 在 高 维 空间 中 ， 几 乎 所 有 点 对 彼此 之 间 都 是 等 距 的 。 其 
实 , 几乎 所 有 点 对 的 距离 都 接近 平均 距离 。 维 数 灾 难 的 另 一 个 表现 是 , 任意 两 个 向 量 几 乎 都 是 垂 
直 的 ， 这 意味 着 所 有 夹 角 都 接近 90。 。 实 际 上 ， 这 让 任何 距离 度量 都 失去 了 意义 。 

使 用 某 种 减少 特征 数量 的 数据 归 约 技术 或 许可 以 解决 维 数 灾难 问题 。 比 如 ,可 以 运行 ReliefF 
等 特征 选择 算法 或 PCA 等 特征 提取 /缩减 算法 减少 特征 数量 。 






























































































































































1.5.2 聚 类 


聚 类 技术 根据 某 种 距离 度量 , 将 类 似 的 实例 归 入 相应 的 艇 。 主 要 思想 是 将 类 似 ( 相互 靠 得 很 
近 ) 的 实例 放 入 同一 个 徐 ， 同 时 让 不 相似 (彼此 离 得 很 远 ) 的 点 位 于 不 同 的 簇 。 图 1-3 展 现 了 簇 
的 样子 。 

聚 类 算法 有 两 个 最 基本 的 方法 。 第 一 个 是 分 层 ( hierarchical ) 或 凝聚 (agglomerative ) 方 
法 ， 先 将 每 个 点 作为 它 自己 的 自然 后 不 断 把 最 相似 的 篮 合并 在 一 起 。 合 并 达到 预先 指定 的 复数 
时 ,或 者 待 合并 的 簇 覆 盖 一 大 片区 域 时 ， 就 停止 合并 操作 。 

另 一 个 方法 基于 点 分 配 ( Point Assignment )。 首 先 佑 计 ( 比如 随机 ) 初始 的 簇 中 心 ( 即 簇 质 
心 )， 然后 将 每 个 点 分 配 到 离 它 最 近 的 簇 ， 直 到 分 配 完 所 有 点 。 最 有 名 的 算法 是 K 均 值 聚 类 算法 。 

K 均 值 聚 类 算法 中 ， 把 那些 相互 间 尽 可 能 远 的 点 选 为 初始 的 簇 中 心 ， 或 者 (分 层 ) 聚集 数据 
样本 并 选取 离 每 个 簇 ( 共 k 个 簇 ) 中 心 最 近 的 点 作为 初始 的 簇 中 心 。 


































































































图 1-3 簇 


1.6 ”监督 学 习 


许多 令 人 惊叹 的 技术 背后 隐藏 着 一 个 关键 概念 一 一 监督 学 习 , 这 些 技术 包括 声音 识别 、 垃 圾 
邮件 过 滤 、 图 像 中 的 面部 识别 、 侦 测 信用 卡 坎 诈 等 。 更 正式 地 讲 ， 给 定 一 组 学 习 样 本 D， 用 特征 
X 进 行 描述 ， 监 督学 习 的 目标 是 找到 一 个 函数 对 目标 变量 7 进行 预测 。 函 数 f 描 述 特征 X 与 类 了 Y 之 间 
的 联系 ， 称 为 模型 : 














f(X)—>7 
监督 学 习 算 法 的 通用 结构 由 如 下 决策 定义 ( Hand 等 ，2001 ): 
口 定义 任务 ; 
口 确定 机 器 学 习 算 法 ， 它 会 产生 特定 归纳 偏 置 ， 即 先 验 假设 ， 这 是 针对 目标 概念 做 出 的 ; 
口 确定 得 分 函数 与 代价 函数 ， 比 如 信息 增益 、 均 方 根 误差 等 ; 
口 确定 最 优 /搜索 方法 优化 得 分 函数 ; 
口 找到 一 个 函数 ， 用 以 描述 X 与 之 间 的 关系 。 
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上 面 许多 决定 已 经 由 任务 的 类 型 与 我 们 拥有 的 数据 集 确定 了 。 接 下 来 将 详细 学 习 分 类 与 回归 
方法 ， 以 及 相应 得 分 函数 的 有 关内 容 。 


1.6.1 分 类 


分 类 可 以 处 理 离散 类 ,其 目标 是 对 目标 变量 中 的 互 斥 值 之 一 进行 预测 。 一 个 应 用 例子 是 做 信 
用 评估 ,最 终 预测 结果 是 判断 目标 人 物 的 信用 是 否 可 靠 。 最 流行 的 算法 有 决策 树 、 朴 素 贝 叶 斯 分 
类 器 、 支 持 向 量 机 、 神 经 网 络 以 及 集成 算法 ( Ensemble Method )。 


1. 决策 树 学 习 


决策 树 学 习 过 程 中 会 创建 一 个 分 类 树 , 树 的 每 一 个 节点 对 应 一 个 属性 , 边 对 应 属性 一 个 可 能 
的 值 (或 区 间 )， 节 点 由 此 而 生 ， 每 个 叶子 对 应 一 个 类 标签 。 决 策 树 可 以 可 视 化 并 以 明确 的 方式 
表示 预测 模型 ， 这 让 它 成 为 一 个 很 透明 ( 白 箱 ) 的 分 类 器 。 比 较 有 名 的 算法 有 ID3 与 C4.5， 此 外 
还 有 许多 可 选 实现 与 改进 算法 ( 比如 Weka 中 的 J48 )。 


2. 概率 分 类 器 


给 定 一 组 属性 值 ， 概 率 分 类 器 ( Probabilistic Classifiers ) 可 以 对 一 组 类 的 分 布 进行 预测 ， 而 
不 预测 一 个 确切 的 类 。 这 可 以 作为 确定 性 程度 来 使 用 ， 即 分 类 器 对 自己 的 预测 有 多 大 把 握 。 最 基 
本 的 分 类 器 是 朴素 贝 叶 斯 分 类 器 , 它 也 是 最 理想 的 分 类 器 一 一 当量 仅 当 属性 是 条 件 独 立 的 。 但 不 
幸 的 是 ， 这 在 实际 情况 中 极其 少见 。 


其 实 有 一 个 称 为 概率 图 模型 的 庞大 分 支 ， 包括 成 百 上 干 的 算法 ， 比 如 贝 叶 斯 网 络 、 动 态 由 
叶 斯 网 络 、 隐 马尔 可 夫 模 型 、 条 件 随机 场 (不 仅 可 以 处 理 两 个 属性 间 的 特定 关系 ， 还 可 以 处 理 
现时 依赖 性 )。 关 于 这 个 主题 ，Karkera 写 了 一 本 很 棱 的 入 门 书 Building Probabilistic Graphical 
Models with Python，Koller 与 Friedman 出 版 了 一 本 详尽 的 理论 “圣经 ”一 一 《概率 图 模型 原 
理 与 技术 》。 

3. 核 方法 

通过 对 模型 应 用 核 技巧 ( kernel trick ), 用 核 函数 ( kernel function ) 蔡 代 模 型 的 特征 ( 预测 需 )， 
可 以 将 任意 一 个 线性 模型 转换 为 非 线性 模型 。 换 言 之 ， 核 技巧 隐 式 地 将 数据 集 变换 成 更 高 维度 。 
核 技巧 充分 利用 了 “分 离 更 高 维 的 实例 通常 更 容易 ”这 一 事实 。 可 以 使 用 核 技巧 的 算法 包括 核 感 
知 器 、 支 持 向 量 机 (SVM )、 高 斯 过 程 、PCA 、 典 型 相关 分 析 、 岭 回归 、 谱 聚 类 、 线 性 自 适应 过 
滤器 等 。 

4. 人 工 神经 网 络 


人 工 神 经 网 络 是 受 生物 神经 网 络 结构 的 启发 而 提出 的 , 可 以 用 于 机 器 学 习 , 也 可 以 进行 模式 
识别 。 人 工 神经 网 络 通常 解决 回归 与 分 类 问题 , 包含 各 种 算法 以 及 各 种 问题 类 型 的 变种 。 比 较 流 
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行 的 分 类 方法 有 感知 器 、 受 限 玻 尔 兹 曼 机 、 深 度 信念 网 络 (Deep Belief Network )。 
5. 集成 学 习 


集成 方法 由 一 系列 不 同 的 弱 模 型 组 成 ， 以 此 获得 更 好 的 预测 能 力 。 先 单独 训练 各 个 模型 ， 然 
后 采用 某 种 方式 将 其 预测 组 合 起 来 ,以 产生 更 全 面 的 预测 。 因 此 ， 集 成体 包含 针对 数据 的 多 种 建 
模 方式 , 希望 能 够 产生 更 好 的 结果 。 集 成 学 习 是 机 器 学 习 算 法 中 非常 强大 的 工具 ， 也 很 流行 , 包 
括 Boosting 方 法 、Bagging 方 法 、AdaBoost、 随 机 森林 。 这 些 方法 的 主要 不 同 在 于 它们 组 合 的 学 习 
器 的 类 型 以 及 选用 组 合 方式 。 


6. 分 类 评估 


我 们 的 分 类 带 工 作 效果 很 好 吗 ? 这 个 分 类 器 比 男 一 个 要 好 吗 ? 在 分 类 中 , 我 们 计算 分 对 与 分 
错 的 次 数 。 假 设 有 两 个 可 用 的 分 类 标签 一 一 yes 与 0， 有 4 种 可 能 的 结果 ， 如 表 1-3 所 示 。 


口 真正 -命中 : 这 表示 一 个 yes 实 例 被 正确 地 预测 为 yes。 

口 真 负 -- 正 确 和 否定 : 这 表示 一 个 no 实例 被 正确 地 预测 为 no。 
口 假 正 - 误 警 : 这 表示 一 个 no 实例 被 预测 为 yes。 

D 假 负 -未 命中 : 这 表示 一 个 yes 实 例 被 预测 为 no。 


表 1-3 ”两 个 分 类 标签 的 可 能 结果 
预测 为 正 ? 
Yes No 
TP- 真 正 FN- 假 正 
FP- 假 正 TN- 真 负 


对 分 类 器 的 性 能 进行 度量 的 两 个 最 基本 度量 值 是 分 类 错误 与 分 类 精度 ， 如 下 : 













































































分 类 错误 - 错误 数 _ FP+FN 
总 数 ”FP+FN+TP+FN 
正确 数 ”TP+TN 








a 了 
分 类 精度 =1- 错 误 = 一 
ry 总 数 ”FP+FN+TP+EFN 




















这 两 个 度量 值 的 主要 问题 是 , 它们 不 能 处 理 不 平衡 类 。 对 一 笔 信用 卡 交 易 是 否 为 欺诈 进行 分 
类 就 是 不 平衡 类 问题 的 一 个 例子 : 正常 交易 占 99.99%， 欺诈 仅 占 极 小 数 。 对 于 每 笔 交 易 , 分 类 器 
将 其 判断 为 正常 交易 ,这 种 准确 率 可 达 99.99% ,但 我 们 主要 感 兴 趣 的 是 那些 极 少 出 现 的 几 个 分 类 。 


(1) 准确 率 与 召回 率 
这 个 解决 方案 用 到 了 两 个 不 包含 TN ( 正确 否定 ) 的 度量 值 ， 它 们 定义 如 下 。 


口 准确 率 : 被 分 类 器 判定 为 正 的 所 有 样本 实例 (TP+FP ) 中 ， 被 正确 判断 为 正 ( TP ) 的 正 
例 样 本 所 占 比重 。 
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准确 这 = 一 一 一 
从 确 率 TP+FP 


口 召回 率 : 在 总 正 例 样本 ( TP+FN ) 中 ， 被 正确 判定 为 正 (TP ) 的 正 例 所 占 比重 。 


召回 3 ee 
TP+FN 


常见 的 做 法 是 ， 把 两 个 度量 值 组 合 起 来 ， 形 成 F 值 (F-measure ) 作为 加 权 平 均值 ， 计 算 分 数 
的 同时 考虑 准确 率 和 召回 率 ， 分 数 的 最 好 值 为 1， 最 差 值 为 0， 计 算 公 式 如 下 : 


2* 准 确 率 * 召 回 率 
准确 率 + 召 回 率 























下 值 = 

















(2) Roc 曲 线 


大 多 数 分 类 算法 都 会 返回 一 个 分 类 置信 和 度 ， 记 作 f(X)， 它 反 过 来 计算 预测 。 沿 用 前 面 信用 卡 
欺诈 的 例子 ， 规 则 可 能 如 下 : 





pr 1 如 果 /(X)> 闹 值 ， 
非 欺 诈 ， 其 他 
姜 值 决定 错误 率 与 真正 率 。 我 们 可 以 把 所 有 可 能 的 国 值 结果 绘 制 成 ROC 曲 线 ( 受 试 者 工作 
特征 曲线 )， 如 图 1-4 所 示 。 






































图 1-4 阔 值 的 ROCI 


线 


图 中 短 点 虚线 表示 的 是 随机 预测 融 ， 长 点 虚线 表示 的 是 完美 预测 器 。 为 了 判断 分 类 带 A 是 否 
优 于 分 类 带 C， 我 们 对 曲线 以 下 的 区 域 进 行 比较 。 


大 多 数 工具 箱 都 提供 上 面 提 到 的 所 有 度量 指标 ， 且 开 箱 即 用 。 


























1.6.2 ”回归 
回归 方法 处 理 连 续 的 目标 变量 ， 这 与 使 用 离散 目标 变量 的 分 类 方法 不 同 。 例 如 ， 预 测 未 来 几 




















天 的 室外 温度 时 ,我 们 会 使 用 回归 方法 ， 而 分 类 方法 只 能 预测 未 来 几 天 是 否 下 雨 。 一 般 来 说 , 回 
归 过 程 评估 的 是 各 种 特征 之 间 的 联系 ， 即 特征 变化 是 如 何 改变 目标 变量 的 。 


1. 线性 回归 



































最 基本 的 回归 模型 假定 特征 与 目标 变量 之 间 有 线性 依赖 关系 。 这 个 模型 经 常 使 用 最 小 二 乘法 
进行 拟 合 , 它 是 使 误差 的 平方 最 小 的 模型 。 许 多 情况 下 , 线性 回归 不 能 对 复杂 关系 进行 建 模 。 比 
如 ,图 1-5 显 示 了 4 组 不 同 的 点 ,它们 有 相同 的 线性 回归 曲线 。 其 中 左上 模型 描述 了 数据 的 总 体 趋 
势 ， 可 以 认为 模型 是 合适 的 ; 左下 模型 对 数据 点 的 拟 合 更 好 ,但 有 一 个 离 群 点 (你 应 该 小 心 检查 
它 ); 右上 与 右 下 的 线性 模型 完全 偏离 了 下 层 的 数据 结构 ， 不 能 将 其 视 为 合适 的 模型 。 
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图 1-5 线性 回归 模型 








2. 回归 评估 





回归 中 ,我 们 从 输入 X 预 测 数 值 Z， 这 些 预 测 通常 是 错误 的 、 不 准确 的 。 我 们 要 问 的 主要 问题 




















是 : 这 些 预测 值 与 实际 值 相差 多 少 ? 换言之 ,我 们 要 测量 预测 值 与 实际 值 之 间 的 距离 。 
(1) 均 方 误差 
均 方 误差 (mean squared error ) 是 预测 值 与 实际 值 差 的 平方 和 的 平均 值 ， 计 算 公 式 如 下 : 
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MSE(X,Y) = (0-7 
均 方 误差 对 异常 值 非常 敏感 。 比 如 ，99 个 准确 率 100% 的 预测 加 上 1 个 准确 率 为 900% 的 预测 ， 
得 分 和 100 个 准确 率 为 99% 的 预测 一 样 。 而 且 ， 均 方 误差 对 平均 值 也 敏感 。 因 此 ， 人 们 更 多 使 用 相 
对 平方 误差 ( relative squared error ) 将 预测 顺 的 MSE 与 均值 预测 需 总 是 用 于 预测 平均 值 一 一 
的 MSE 进 行 比较 。 


(2) 平均 绝对 误差 


平均 绝对 误差 ( mean absolute error ) 是 预测 值 与 实际 值 差 的 绝对 值 之 和 的 平均 值 ， 计 算 公 式 
如 下 : 























1 n 
MAS(X,Y) =—> fCX) -| 


MAS 对 异常 值 不 太 敏 感 ， 但 它 对 平均 值 与 规模 是 敏感 的 。 
(3) 相关 系数 


相关 系数 以 两 变量 与 各 自 平 均值 的 离 差 为 基础 ， 通 过 两 个 离 差 相 乘 反映 两 变量 之 间 相 关 程 
度 。 若 相关 系数 为 负 值 ， 则 表示 弱 相 关 ; 若 为 正 值 ， 则 表示 强 相 关 ; 若 为 0， 则 表示 不 相关 。 实 
际 值 x 与 预测 值 7 之 间 的 相关 系数 定义 如 下 : 








D(X,—X)Y, -7) 


相关 系数 对 平均 值 与 规模 完全 不 敏感 ， 对 异常 值 不 太 敏感 。 它 能 获取 相对 排序 ( relative 
ordering )， 对 文档 关联 性 与 基因 表达 等 任务 进行 分 级 排列 时 很 有 用 。 


CCyy = 








1.7 泛 化 与 评估 


模型 创建 好 之 后 ， 我 们 如 何 知 道 它 针 对 新 数据 正常 工作 ? 这 个 模型 有 什么 好 ? 为 了 回答 
些 问题 ， 首 先 学 习 模 型 泛 化 ( model generalization )， 然 后 了 解 如 何 对 模型 在 新 数据 上 的 性 能 
行 评估 。 








这 
进 





欠 拟 合 与 过 拟 合 


对 预测 器 训练 得 到 的 模型 可 能 太 复 杂 或 者 太 简单 。 低 复杂 度 模 型 ( 最 左边 模型 ) 可 能 像 预 测 
最 频繁 或 平均 类 值 一 样 简单 ,而 高 复杂 度 模 型 ( 最 右边 模型 ) 能 够 表示 训练 实例 。 模型 太 刚性 ( 如 
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图 1-6 左 侧 模型 ) 就 不 能 获得 复杂 模式 ， 而 模型 太 柔性 (如 图 中 右 侧 模型 ) 就 会 把 训练 数据 中 的 | 
噪声 也 一 起 融合 进去 。 我们 面临 的 主要 挑战 在 于 选择 合适 的 学 习 方法 及 其 参数 ， 只 有 这 样 ， 经 过 
学 习 得 到 的 模型 才能 在 新 数据 上 有 和 良好 的 表现 ( 见 图 1-6 中 间 模 型 )。 





























图 1-6 不 同类 型 的 模型 

图 1-7 反 映 了 训练 集中 的 错误 是 如 何 随 着 模型 复杂 度 减 少 的 。 简 单 刚性 模型 对 数据 的 拟 合 度 
不 够 ,导致 大 量 错误 。 随 着 模型 复杂 度 的 增加 ， 它 可 以 更 好 地 描述 训练 数据 的 结构 ， 错 误 必然 会 
减少 。 如 果 模 型 太 复杂 ， 极 有 可 能 对 训练 数据 拟 合 过 度 ， 预 测 错 误 随 之 增加 。 











4 
刚性 模型 


训练 集 


模型 复杂 度 个 高 


过 拟 合 F 











图 1-7 ”训练 集中 的 错误 随 着 模型 复杂 度 的 增加 而 减少 


根据 任务 复杂 度 与 数据 可 用 性 , 我 们 可 以 把 分 类 器 的 结构 调整 得 更 简单 或 者 更 复杂 。 大 部 分 
学 习 算 法 支持 用 户 做 如 下 调整 。 
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口 回归 : 多 项 式 的 次 数 

口 朴素 贝 叶 斯 : 属性 数目 

口 决策 树 : 树 节 点 的 数目 、 修 剪 置信 度 

口 k 最 近邻 算法 : 邻居 数目 ， 基 于 距离 的 邻居 权重 
口 SVM: 核 类 型 ， 代 价 参数 

口 神经 网 络 : 神经 元 与 隐藏 层 的 数目 


通过 调整 ,我 们 希望 把 泛 化 误差 ( Generalization error ) 最 小 化 ， 即 让 分 类 器 在 未 来 数据 上 有 
良好 的 表现 。 遗 憾 的 是 ,我们 无 法 计算 真正 的 泛 化 误差 , 但 可 以 做 估计 。 然 而 ， 如 果 模 型 在 训练 
数据 上 表现 良好 ， 但 在 测试 数据 上 表现 较 差 ， 说 明 这 个 模型 极 有 可 能 过 拟 合 。 


1. 训练 集 与 测试 集 


为 了 估算 泛 化 误差 , 我 们 将 拥有 的 数据 划分 成 两 部 分 : 训练 数据 与 测试 数据 。 根据 一 般 经 验 ， 
划分 数据 时 ， 训 练 数据 与 测试 数据 的 比例 应 该 是 70:30。 首 先 使 用 训练 数据 对 预测 器 进行 训练 ， 
然后 使 用 预测 器 对 测试 数据 进行 预测 ， 最 后 计算 误差 〈 预测 值 与 真实 值 之 差 )。 这 样 就 可 以 对 真 
实 的 泛 化 误差 进行 评估 了 。 

评估 基于 如 下 两 个 假设 : 首先 , 假设 测试 集 是 来 自 数据 集 的 无 偏 样本 集 ; 其 次 , 假设 新 数据 
将 根据 训练 与 测试 样本 进行 分 布 重组 。 第 一 种 假设 可 以 通过 交叉 验证 与 层 化 处 理 ( Stratification ) 
的 方法 得 到 实现 。 此 外 , 虽然 这 种 情况 很 少见 , 但 如 果真 的 没有 足够 多 的 数据 用 作 单 独 的 测试 集 ， 










































































那么 学 习 算 法 就 会 运行 得 很 不 理想 一 一 因为 它们 接收 不 到 足够 多 的 数据 。 这 种 情形 下 ,可 以 使 用 
交叉 验证 。 


2. 交叉 验证 

交叉 验证 将 数据 集 划 分 成 个 子 集 ， 它 们 大 小 差不多 ， 比 如 图 1-8 显 示 的 5 个 子 集 。 首 先 ， 将 
2~5 子 集 用 于 学 习 ， 将 1 子 集 用 于 训练 。 然 后 重复 这 个 过 程 5 次 ， 每 次 多 拿 出 一 个 集合 用 于 测试 ， 
并 计算 5 次 重复 的 平均 误差 。 



































图 1-8 ”交叉 验证 





借助 这 种 方法 ， 可 以 将 所 有 数据 用 于 学 习 与 测试 , 但 要 避免 使 用 相同 数据 训练 与 测试 模型 
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3. 留 一 法 交叉 验证 

留 一 法 交叉 验证 是 交叉 验证 的 一 个 极端 例子 。 留 一 法 交叉 验证 中 , 折 (fold ) 的 数目 等 同 于 
实例 的 数目 。 先 留 出 一 个 实例 ， 其 余 实 例 全 部 用 来 学 习 ， 然 后 用 留 出 的 实例 测试 模型 。 针 对 所 有 
实例 重复 上 述 过 程 , 这 样 每 个 实例 只 有 一 次 用 来 做 验证 。 我 们 拥有 的 学 习 样 本 有 限时 一 一 比如 少 
于 50 个 一 一 建议 使 用 该 方法 。 


4. 层 化 处 理 


层 化 处 理 方法 用 于 选取 样本 子 集 ， 选 择 时 ， 每 一 层 ( fold ) 都 大 致 包含 相同 比例 的 类 值 。 如 
果 一 个 类 是 连续 的 , 那么 这 些 分 层 都 会 被 选择 ,这 样 平均 响应 值 在 所 有 层 差不多 都 一 样 。 层 化 处 
理 可 以 和 交叉 验证 、 单 独 训练 集 或 测试 集 一 起 使 用 。 


























1.8 小 结 


本 昔 复 习 了 机 器 学 习 的 基础 知识 , 重 温 了 机 天 学 习 的 应 用 流程 , 还 阐述 了 机 带 学 习 的 主要 任 
务 、 方 法 与 算法 。 下 一 章 将 介绍 有 哪些 可 用 的 Java 机 器 学 习 库 ， 以 及 它们 可 以 用 来 做 什么 任务 。 





面向 机 器 学 习 的 Java 库 与 


VT7 人 人、 
品 








自己 动手 实现 机 顺 学 习 算 法 可 能 是 最 好 的 学 习 方法 , 但 如 果 你 站 在 巨人 肩 上 , 充分 利用 现 有 
开源 库 ， 就 能 更 快 地 推进 自己 的 项 目 。 


本 章 将 学 习 Java 语 言 中 与 机 器 学 习 相 关 的 各 种 库 与 平台 ， 了 解 每 个 库 的 功能 ， 以 及 可 以 用 它 
们 解决 的 问题 。 


本 章 将 学 习 如 下 内 容 。 


口 实现 机 器 学 习 应 用 时 需要 具备 的 Java 环 境 

口 Weka: 一 个 通用 的 机 器 学 习 平 台 

口 Java 机 器 学 习 库 : 一 系列 机 器 学 习 算 法 

口 Apache Mahout: 一 个 可 伸缩 的 机 絮 学 习 平 台 
口 Apache Spark: 一 个 分 布 式 机 融 学 习 库 

口 Deeplearning4j: 一 个 深度 学 习 库 

口 MALLET: 一 个 文本 挖掘 库 


此 外 , 我 们 还 将 讨论 如 何 使 用 这 些 库 与 其 他 组 件 为 单机 与 大 数据 应 用 创建 完整 的 机 器 学 习 应 
用 栈 。 
































2.1 Java 环境 


新 机 器 学 习 算法 常常 先 出 现在 大 学 的 实验 室 中 ， 通 常 组 合 了 几 种 语言 ， 比 如 shell 脚 本 、 
Python 、R、MATLAB Java、Scala、C++， 用 于 证 明 一 个 新 概念 ， 并 对 属性 做 理论 分 析 。 一 个 算 
法 可 能 要 经 过 漫长 的 重 构 之 路 ， 才 能 进入 一 个 带 有 标准 输入 /输出 与 用 户 界面 的 库 。Python 、R、 
MAILAB 相 当 流 行 ， 它 们 主要 用 来 编写 脚本 、 做 研究 与 实验 。 另 一 方面 ，Java 是 事实 上 的 企业 级 
语言 , 这 归 因 于 它 支 持 静 态 类 型 , 拥有 健壮 的 IDE 支 持 , 以 及 良好 的 可 维护 性 、 不 错 的 线程 模型 、 
高 性 能 并 发 数据 结构 库 。 此 外 ,还 有 许多 可 用 的 Java 机 器 学 习 库 ， 用 户 可 以 很 方便 地 将 其 应 用 于 
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现 有 的 Java 应 用 程序 ， 充 分 利用 机 器 学 习 的 强大 能 力 。 


2.2 机 器 学 习 库 


基于 Java 的 开源 机 需 学 习 项 目 超 过 70 个 ， 你 可 以 在 MLOSS.org 网 站 中 看 到 这 些 项 目的 列表 。 | 
除 此 之 外 ,可 能 还 有 很 多 未 列 出 的 项 目 存在 于 各 大 学 的 服务 器 、GitHub 或 BitBucket 上 。 我 们 将 学 
习 几 个 主要 的 库 与 平台 ， 了 解 它们 能 够 解决 哪 类 问题 、 支 持 哪些 算法 ， 以 及 使 用 哪 种 数据 。 











2.2.1 Weka 


Weka 是 Waikato Environment for Knowledge Analysis ( 怀 卡 托 智能 分 析 环 境 ) 的 缩写 , 它 是 
由 新 西 兰 怀 卡 托 大 学 开发 ,可 能 是 最 著名 的 Java 机 器 学 习 库 。Weka 是 一 个 通用 库 , 能 够 完成 各 种 
机 器 学 习 任 务 ， 比 如 分 类 、 回 归 、 聚 类 ， 其 特色 是 拥有 丰富 的 图 形 用 户 界面 、 命 令 行 界面 与 Java 
API。 更 多 内 容 请 参考 http://www.cs.waikato.ac.nz/ml/weka/。 


写作 本 书 之 时 ，Weka 总 共 包 含 267 种 算法 : 数据 预 处 理 ( 82 )、 特 征 选择 ( 33 )、 分 类 与 回归 
(133 )、 聚 类 〈12 )、 关 联 规则 挖掘 (7 )。 图 形 界面 适用 于 数据 探索 ， 而 Java API 人 允许 开发 新 的 机 
器 学 习 方案 ， 并 将 相关 算法 应 用 到 你 的 应 用 程序 。 


The University 
of Waikato 


图 2-1 Weka 


Weka 在 GNU 通 用 公共 许可 协议 下 发 行 ， 这 意味 着 你 可 以 复制 、 发 行 与 修改 。 但 要 在 源 文件 
中 跟踪 变化 ， 并 且 遵守 GNU GPL 协议 。 你 甚至 可 以 商业 方式 发 行 ， 但 必须 开放 源 代 码 或 者 获得 
商业 许可 证 。 


Weka 除 了 支持 几 种 常见 的 文件 格式 之 外 ， 还 有 自己 默认 使 用 的 专 有 数据 格式 一 一 ARFF， 这 
种 数据 格式 使 用 属性 数据 对 ( attribute-data pairs ) 描述 数据 。ARFF 文 件 主 要 包含 两 部 分 ， 第 一 部 
分 是 头 部 定义 , 指定 所 有 属性 ( 即 特 征 ) 和 对 应 的 类 型 , 比如 分 类 型 ( nominal )、 数 值 型 ( numeric )、 
日 期 型 (date )、 字 符 串 型 (string ); 第 二 部 分 是 包含 数据 的 数据 区 ， 其 中 每 一 行 对 应 一 个 实例 。 
头 部 定义 中 的 最 后 一 个 属性 被 隐 式 地 看 作 目 标 变量 ， 缺 失 数 据 用 问号 表示 。 回 想 一 下 第 1 章 举 过 
的 例子 ， 采用 ARFF 文 件 格 式 书写 Bob 实 例 ， 如 下 所 示 : 


@RELATI ON person dataset 











































































































@ATTRI BUTE ‘Name” STRING 
@ATTRI BUTE ‘ Height NUMERIC 
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@ATTRI BUTE “Eye color {blue, brown, green} 
@ATTRI BUTE ‘Hobbies. STRING 


@DATA 

"Bob', 185.0, blue, 'climbing, sky diving' 

'Anna', 163.0, brown, 'reading’' 

"jane', 168.0, ?, 7? 

如 上 所 示 ， 整 个 文件 由 3 个 区 块 组 成 ， 第 一 区 块 由 @RELATI ON <St ri ng> 关 键 字 开始 ， 指 定 
数据 集 名 称 ; 第 二 区 块 以 @ATTRI BUTE <5tring> 关 键 字 开始 ， 后 面 跟着 属性 名 和 相应 的 类 型 ， 
可 用 的 类 型 有 STRI NG 、NUMERIC 、DATE ， 以 及 一 组 分 类 值 一 一 最 后 一 个 属性 被 隐 式 假定 为 我 们 
0 目标 变量 ; 最 后 一 个 区 块 以 @DATA 关 键 字 开始 ， 后 面 的 每 一 行 就 是 一 个 实例 。 实 例 的 各 
个 属性 值 以 逗号 分 隔 ， 排 列 顺序 与 第 二 个 区 块 中 的 属性 排列 顺序 一 致 。 


和 与 第 4 章 中 ， 你 将 看 到 更 多 Weka 的 应 用 示例 。 
逐 和 学 习 更 多 关于 Weka 的 内 容 ， 你 可 以 阅读 快速 入 门 书 Weka How-to 并 开始 编 
























































码 ， 、 《数据 挖掘 : 实用 机 器 学 习 工 具 与 技术 》 深 入 了 解 相关 理论 背景 。 


Weka 的 Java API 组 织 在 如 下 顶层 包 中 。 


Dweka,associations: 包含 数据 结构 与 关联 规则 学 习 算 法 ， 如 Apriori、Predictive 
Apriori FilteredAssociator .FP-Growth .Generalized Sequential Patterns (GSP) .Hotspot、 
Tertius。 

口 weka.classifiers: 包含 监督 学 习 算法 、 评 佑 器 (evaluators ) 与 数据 结构 。 该 包 进 一 
步 划 分 为 如 下 组 件 。 


加 Weka.classifiers.bayes: 该 组 件 实现 了 贝 叶 斯 方法 、 包 括 朴素 贝 叶 斯 、 贝 叶 斯 网 
络 、 贝 叶 斯 逻辑 回归 等 。 

mweka.classifiers.evaluation: 包含 用 于 分 类 预测 与 数值 预测 的 监督 评估 算法 ， 
比如 评估 统计 、 混 涌 矩 阵 、ROC 曲 线 等 。 

mweka.classifiers,functions: 包含 回归 算法 ,比如 线性 回归 、 保 序 回归 、 高 斯 过 
程 、 支 持 向 量 机 、 多 层 感 知 需 、 表 决 感知 器 及 其 他 。 

mweka.classifiers,.,|1azy: 包含 基于 实例 的 算法 ， 比 如 k 最 近邻 算法 、K*、 懒 惰 式 贝 
叶 斯 规则 。 


mweka.classi 















































fiers. meta: 包含 监督 学 习 元 算法 ， 比 如 AdaBoost、bagging、Additive 
Regression.、 RondomCommittee 等 。 

Weka.classifiers.mi : 包含 多 实例 学 习 算法 ， 比 如 Citation k-nn、 多 样 密 度 算法 、 
MI AdaBoost 及 其 他 。 

Weka.classifiers.rules: 包含 决策 表 和 基于 separate-and-conquer 方 法 、Ripper、 
Part、Prism 等 的 决策 规则 。 
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mweka.classifiers.trees: 包含 各 种 决策 树 算法 ， 比 如 ID3、C4.5、M5 、 功 能 树 、 
逻辑 树 、 随 机 森林 等 。 


口 weka.clusterers: 包含 聚集 算法 ， 比 如 K 均 值 、Clope、Cobweb 、DBSCAN 层 次 聚 
类 等 。 

Dweka.core: 包含 各 种 实用 工具 类 、 数 据 展示 、 配 置 文件 等 。 

口 weka.datagenerators: 包含 针对 分 类 、 回 归 与 聚集 算法 的 数据 生成 器 。 

口 Weka,estimators: 包含 针对 离散 /名 义 域 (discrete/nominal domains )、 条 件 概率 估计 等 
各 种 数据 分 布 估 测 器 ( data distribution estimators )。 
口 weka.experiment : 包含 一 组 支持 试验 运行 的 类 ， 包 括 必需 的 配置 、 数 据 集 、 模 型 设 
































置 与 统计 。 
口 weka.filters :包含 基于 属性 与 基于 实例 的 选择 算法 , 为 监督 学 习 与 非 监督 学 习 做 数据 
处 理 。 








口 Weka. gui : 包含 实现 了 浏览 器 、 实 验 器 ( experimenter )、 知 识 流 (knowledge flow ) 程 
序 的 图 形 界面 。 浏 览 器 允许 查看 数据 集 、 算 法 与 相应 参数 、 带 有 散 点 图 的 可 视 化 数据 集 
以 及 其 他 可 视 化 界面 。 实 验 器 用 来 设计 批量 实验 ， 但 只 能 用 在 分 类 与 回归 问题 上 。 知 识 
流 实现 了 一 个 可 视 化 的 拖 放 用 户 界面 ， 用 来 创建 数据 流 ， 比 如 装载 数据 、 应 用 过 滤器 、 
创建 分 类 器 以 及 做 评估 。 








2.2.2 Java 机 器 学 习 


Java 机 需 学 习 库 简称 Java-MIL 一 一 由 一 系列 机 器 学 习 算法 组 成 ， 对 同 种 类 型 的 算法 提供 
通用 接口 。 因 此 ， 它 唯一 的 特色 是 Java API， 主 要 用 户 是 软件 工程 师 与 程序 员 。Java-ML 包 含 的 
算法 涉及 数据 处 理 、 特 征 选取 、 分 类 与 聚集 ， 它 的 另外 一 个 特色 是 提供 了 几 个 Weka 桥 ， 方 便 用 
户 直接 通过 Java-ML API 访 问 Weka 算 法 。 你 可 以 从 http://java-ml.sourceforge.net 下 载 ， 写 作 本 书 之 
时 ， 它 的 最 新 版 本 是 2012 年 发 布 的 。 
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图 2-2 Java-ML 
Java-ML 还 是 一 个 通用 的 机 器 学 习 库 。 相 比 于 Weka， 它 提供 了 更 一 致 的 接口 ， 以 及 最 新 算法 
的 实现 一 一 这 在 其 他 包 中 是 没有 的 ， 比 如 大 量 最 新 的 相似 性 度量 法 与 特征 选取 技术 、 动 态 时 间 规 
整 算法 、 随 机 森林 属性 计算 等 。Java-ML 也 遵循 GNU GPL 许可 协议 。 
Java-ML 几 乎 可 以 支持 所 有 文件 类 型 ， 但 要 求 文件 中 的 每 一 行 就 是 一 个 数据 样本 ， 各 个 特征 
通过 逗号、 分 号 、 制 表 符 进行 分 隔 。 
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Java-ML 库 围绕 如 下 顶层 包 进 行 组 织 。 














森林 、bagging、 自 组 织 映射 、k 最 近邻 算法 等 。 


Cobweb、AQBC 以 及 其 他 。 
口 net .sf.,javaml .core: 包含 表示 实例 与 数据 集 的 类 。 

















口 net .sf.javaml .classification: 包含 各 种 分 类 算法 ， 比 如 朴素 贝 叶 斯 算法 、 随 机 


口 net .sf.javaml .clustering: 包含 聚 类 算法 ， 比 如 K 均 值 、 自 组 织 映 射 、 空 间 聚 类 、 


Dnet.sf.javam, distance: 包含 测量 实例 距离 与 相似 度 的 算法 ， 比 如 切 比 雪夫 距离 、 


余弦 距离 /相似 度 、 欧 氏 距 离 、 杰 卡 德 距 离 /相似 度 、 马 氏 距 离 、 曼 哈 顿 距离 、 闵 可 夫 斯 基 


距离 、 皮 尔 了 还 相关 系数 、Spearman’s footrule 距 离 、 动 态 时 间 规 整 (DTW) 等 。 














比如 信息 增益 率 、ReliefF 、KL 散 度 、 对 称 不 确定 性 ( symmetrical uncertainty ) 等 。 











设置 类 或 属性 值 等 。 
Dnet.sf,javam, matrix: 实现 了 内 存 或 基于 文件 的 数组 。 
口 net .sf.javaml .sampling: 实现 了 采样 算法 ， 用 于 选取 数据 集 子 集 。 




















Weka API 接 口 等 。 
口 net .sf.javaml ,utils: 包含 与 算法 有 关 的 实用 工具 方法 ， 比 如 统计 、 数 学 方法 
表 以 及 其 他 。 


2.2.3 Apache Mahout 








Dnet.sf,.javam ,featureselection: 包含 用 于 特征 评估 、 评 分 、 选 择 、 排 名 的 算法 ， 





Dnet,sf. javam ,filter :包含 用 于 操作 实例 的 方法 , 所 允许 的 操作 有 过 滤 、 移 除 属性 、 


口 net .sf.,javaml .to00ls: 包含 各 种 实用 工具 方法 ,涉及 数据 集 、 实 例 操 作 、 序 列 化 、 


、 列 联 


Apache Mahout 项 目的 目标 是 创建 一 个 可 伸缩 的 机 器 学 习 库 。 它 建立 在 可 扩展 的 、 分 布 式 架 
构 之 上 一 一 比如 Hadoop, 使 用 MapReduce 范 式 , 支持 在 服务 器 集群 上 使 用 并 行 、 分 布 式 算法 处 理 











与 生成 大 型 数据 集 。 








et 


图 2-3 Mahout 


Mahout 的 特色 是 针对 可 扩展 算法 (这些 算 法 用 来 做 聚 类 、 分 类 与 协同 过 滤 ) 提供 了 控 人 

















制 台 接 

















口 与 Java API。 它 可 以 解决 三 种 商业 问题 : 商品 推荐 ( 为 人 们 推荐 商品 ， 比 如 “喜欢 这 部 








电影 的 





客户 还 喜欢 ……”); 聚 类 〈 比如 把 某 个 文本 文档 归 入 相关 文档 组 ); 分 类 ( 比如 学 习 将 哪个 主题 


指派 给 未 打 标签 的 文档 )。 
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Mahout 的 发 行 遵守 “商业 友好 ”Apache 许 可 证 , 这 意味 着 你 可 以 自由 使 用 , 但 必须 将 Apache 
许可 证 包含 并 显示 到 你 的 程序 版 权 声明 中 。 


Mahout 专 有 库 如 下 所 示 。 


口 org. apache.mahout. cf.taste:; 包含 协同 过 滤 算 法 ,其 中 有 基于 用 户 的 ,有 基于 商品 
的 ， 还 有 带 有 ALS 的 矩阵 分 解法 。 

口 org.apache.mahout,classifier: 包含 内 存 中 与 分 布 式 的 实现 ， 涉 及 逻辑 回归 、 朴 
素 贝 叶 斯 、 随 机 森林 、 隐 马尔 可 夫 模 型 与 多 层 感 知 器 。 

口 org. apache,. mahout.,clustering: 包含 聚 类 算法 ， 比 如 Canopy 聚 类 、K 均 值 、 模 糊 开 
均值 、Streaming K 均 值 与 谱 聚 类 。 

Dorg.apache,mahout, commnon: 包含 算法 的 实用 工具 方法 , 比如 距离 、MapReduce 操 作 、 
和 迭代 器 等 。 
Dorg.apache,mahout,driver : 实现 了 一 个 通用 驱动 程序 ， 用 来 运行 其 他 类 的 主 方法 。 
口 org. apache., mahout, ep :使 用 记 步 变异 (recorded-step mutation ) 实现 的 进化 优化 算法 。 
口 org. apache, mahout. math: 包含 各 种 数学 实用 方法 与 在 Hadoop 中 的 实现 。 

口 org.apache.mahout .vectorizer : 包含 用 于 数据 表示 、 操 作 与 执行 MapReduce 任 务 
的 类 。 
























































2.2.4 Apache Spark 


Apache Spatrk 也 可 以 简称 为 Spark， 它 是 建立 在 Hadoop 之 上 的 大 型 数据 处 理 平台 。 与 Mahout 
相 比 ， 它 并 没有 绑 定 到 MapReduce 范 式 之 上 。 相 反 ， 它 使 用 内 存 缓存 提取 工作 数据 集 ， 处 理 数据 
并 重复 查询 。 有 报道 称 ， 与 直接 工作 在 磁盘 数据 之 上 的 Mahout 实 现 相 比 ，Spark 的 处 理 速度 最 高 


可 快 10 倍 。 可 以 从 https://spark.apache.org 下 载 。 
SoaArK 


图 2-4 Apache Spark 


很 多 框架 、 库 建立 在 Spark 之 上 ， 比 如 用 于 处 理 图 形 的 GraphX 、 处 理 实 时 数据 流 的 Spark 
Streaming， 以 及 进行 机 器 学 习 〈 分类、 回归 、 协 同 过 滤 、 聚 类 、 降 维 、 优 化 ) 的 MLlib 库 。 

Spark 的 MLlib 可 以 使 用 基于 Hadoop 的 数据 源 ， 比 如 Hadoop 分 布 式 文件 系统 ( HDFS )、HBase 
以 及 本 地 文件 。 支 持 的 数据 类 型 如 下 。 


口 本 地 向 量 : 它 被 存储 在 一 台 单 独 的 机 器 上 ， 分 为 稠密 向 量 与 稀疏 向 量 两 种 。 前 者 表现 为 
一 个 双 精 度 类 型 值 的 数组 ， 比 如 (2.0, 0.0, 1.0, 0.0); 而 后 者 表现 为 向 量 长 度 、 索 引 数 组 与 
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双 精 度 浮 点 型 值 的 数组 ， 比 如 [4, (0, 2), (2.0, 1.0)]。 


口 标注 点 ( Labeled point ): 


标签 可 以 是 类 索引 、 
密 向 量 可 以 表示 为 [1.0, (2.0, 0.0, 1.0, 0.0)]。 





口 本 地 和 矩阵 (Local matrix ): 
为 主 序 排列 ) 定义 。 
D 分 布 式 和 矩阵 (Distributed matrix ): 用 于 操作 存储 在 Spark RDD ( 弹性 分 布 式 数据 集 ) 中 








二 分 类 结果 或 多 个 类 索引 列表 ( 多 类 分 类 )。 比如 ， 














它 用 在 监督 学 习 算 法 中 ， 由 带 有 双 精 度 类 值 的 本 地 向 量 


组 成 。 
个 带 标 记 的 笛 





它 在 单机 上 存储 稠密 矩阵 ， 由 和 矩阵 维 数 与 一 个 双 数 组 〈 以 列 


的 数据 ， 表 示 一 系列 可 以 并 行 操作 的 元 素 。 有 三 种 表示 : 行 矩 阵 (row matrix ), 每 一 行 都 





类 似 于 行 矩 阵 ， 但 是 


matrix )， 





当 行 无 法 存储 在 单机 上 并 
Spark 的 MLlib API 库 针对 各 种 学 习 算 法 提供 

















是 一 个 可 存储 在 单机 上 的 本 地 向 量 , 行 索引 无 意义 ;人 带 索 引 的 行 矩 阵 (indexed row matrix )， 


行 索引 有 意义 ， 即 能 对 行进 行 标识 与 连接 ; 坐标 行 矩 阵 ( coordinate 


且 矩 阵 非常 稀 玻 时 使 用 。 
t 了 接口 与 实用 工具 ， 














大 致 如 下 。 
























































口 org.apache. spark.mllib.classification: 包含 二 元 分 类 与 多 类 分 类 算法 ， 比 如 
线性 SVM、 导 辑 回归 、 决 策 树 、 朴 素 贝 叶 斯 。 

口 org,apache,spark,mllib,clustering: 包含 K 均 值 聚 类 。 

Dorg.apache,.spark,mlib.linalg: 包 含 数 据 表 示 ， 比 如 稠密 向 量 、 稀 玻 向 量 、 和 矩阵 。 

口 org.apache.spark.mllib.optimization: 包含 各 种 优化 算法 ， 在 MLlib 中 用 作 底 层 
原 语 , 包含 梯度 下 降 算 法 、 随 机 梯度 下 降 法 、 分 布 式 SGD 更 新 方案 、 限 制 内 存 BFGS 算 法 。 

口 0rg, apache.,spark.mllib,recommendation: 包含 基于 模型 的 协同 过 滤 算 法 ， 使 用 
交替 最 小 二 乘法 的 矩阵 分 解 实现 。 

口 org.apache.spark.mllib.,regression: 包含 回归 学 习 算法 ， 比 如 线性 最 小 二 乘法 、 
决策 树 、Lasso 算 法 、 岭 回归 。 

口 org.apache,spark.mllib,stat : 包含 样本 ( 稀 琉 向 量 或 稠密 向 量 格式 ) 统计 函数 ， 
用 来 计算 平均 值 、 方 差 、 最 小 值 、 最 大 值 、 向 量 个 数 与 非 零 向 量 个 数 。 

口 org.apache.spark. ml1ib.tree: 实现 了 分 类 与 回归 决策 树 学 习 算法 。 

口 org.apache.spark. mlib util: 包含 一 系列 对 数据 进行 装载 、 预 处 理 、 生 成 与 验证 
的 方法 。 


2.2.5 Deeplearning4] 


Deeplearning4j 也 称 DL4J, 是 使 用 Java 语 言 编 写 的 深度 学 习 尼 
深度 学 习 框 架 ， 














E。 它 也 是 一 个 分 布 式 或 单机 式 的 


包含 并 支持 多 种 神经 网 络 结构 ， 比 如 前 馈 神 经 网 络 、RBM、 卷 积 神经 网 络 、 深 





度 信 念 网 络 、 自 编码 器 等 。 
邮件 或 电子 商务 欺诈 。 


Deeplearning4j 在 Apache 2.0 许 可 证 下 发 行 , 可 以 从 http:/deeplearning4j.org 下 载 。Deeplearning4j 

















DL 条 可 以 解决 一 些 常 见 的 识别 问题 ， 比 如 识别 面部 、 声 音 以 及 垃圾 
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库 的 组 织 结构 如 下 。 


口 org. deeplearning4j ,base: 包含 加 载 类 。 

口 org. deeplearning4j .berkeley: 包含 数学 实用 工具 方法 。 

口 org. deeplearning4j .clustering: 包含 K 均 值 聚 类 算法 的 实现 。 

口 org. deeplearning4j .datasets: 操作 数据 集 ， 人 允许 的 操作 有 导入 、 创 建 、 人 遍历 等 。 
口 org. deeplearning4j.,distributions: 包含 针对 于 分 布 的 实用 工具 方法 。 

口 org. deeplearning4j .eval : 包含 评估 类 ， 比 如 混淆 矩阵。 

口 org. deeplearning4j .exceptions: 实现 了 异常 处 理 程序 。 

口 org. deeplearning4j .models: 包含 监督 学 习 算 法 ， 比 如 深度 信念 网 络 、 栈 式 自 编码 
髓 、 堆 二 式 去 品 自 编码 器 、RBM。 

口 org. deeplearning4j .nn: 实现 了 基于 神经 网 络 的 组 件 与 算法 ， 比 如 神经 网 络 、 多 层 
网 络 、 卷 积 多 层 网 络 等 。 

口 org. deeplearning4j .optimize: 包含 神经 网 络 优化 算法 ， 比 如 反 向 传播 算法 、 多 层 
优化 、 输 出 层 优化 等 。 

口 org. deeplearning4j ,plot : 包含 各 种 绘制 数据 的 方法 。 

口 org. deeplearning4j .rng:; 一 个 随机 数据 生成 器 。 

口 org. deeplearning4j util :包含 辅助 工具 与 实用 方法 。 













































































2.2.6 MALLET 


MALLET ( Machine Learning for Language Toolkit， 自 然 语言 机 器 学 习 工 具 集 ) 是 一 个 大 
型 库 ， 包 含 自然 语言 处 理 算法 与 实用 工具 。 它 可 以 应 用 于 各 种 任务 ， 比 如 文本 分 类 、 文 本 聚 类 、 
言 息 抽取 与 主题 建 模 等 。 对 于 一 些 算法 ， 它 提供 了 命令 行 接口 与 Java API， 涉 及 的 算法 有 朴素 贝 
叶 斯 、HMM、 隐 狄 利克 雷 主题 模型 、 逻 辑 回 归 与 条 件 随机 场 。 


从 MALLET 


图 2-5 MALLET 


MALLET 在 通用 公共 许可 证 1.0 下 发 行 ， 这 意味 着 你 可 以 自由 使 用 它 ， 甚 至 可 以 用 在 商业 应 
用 中 。 可 以 从 http://mallet. cs.umass.edu 下 载 。MALLET 实 例 用 名 称 、 标 签 、 数 据 与 源 表示 ， 然 而 
可 以 使 用 如 下 两 种 方法 将 数据 导入 成 MALLET 格 式 。 


口 每 文件 一 实例 : 每 个 文件 ( 即 文档 ) 对 应 一 个 实例 ,MALLET 人 允许 使 用 目录 名 作为 输入 。 
口 每 行 一 实例 : 每 行 对 应 一 个 实例 ,格式 为 : i nstance_name 标签 标记 。 其 数据 是 一 个 特 
征 向 量 ， 由 用 作 标 记 的 不 同 词语 与 其 出 现 的 次 数组 成 。 
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MALLET 库 包含 如 下 包 。 


Dcc.nmallet,classify: 包含 用 于 训练 与 对 实例 分 类 的 算法 ， 比 如 AdaBoost、bagging、 
C4.5、 其 他 决策 树 模 型 、 多 元 逻辑 回归 、 朴 素 贝 叶 斯 与 Winnow2。 
Dcc,nmallet,cluster: 包含 无 监督 聚 类 算法 ， 比 如 贪 焚 聚 合 ( greedy agglomerative )、 疏 
山 算 法 、K-Best 与 K 均 值 聚 类 。 

Dcc.nmallet,extract : 实现 了 分 词 器 、 文 档 提取 器 、 文 档 查 看 器 、 清 洁 器 (cleaners ) 等 。 
口 cc. mal1et.fst :实现 了 序列 模型 , 包括 条 件 随 机 场 、HMM、 最 大 箭 马尔 可 夫 模 型 与 对 
应 算法 与 评估 器 。 

口 cc. mal1et.grmm: 实 现 了 图 模型 与 因子 图 ,比如 推理 算法 、 学 习 与 测试 ,例如 Loopy Belief 
Propagation 、 吉 布 斯 采样 等 。 

Dcc.mallet.optimze: 包含 寻找 函数 最 大 值 的 优化 算法 ， 比 如 梯度 上 升 法 、 限 制 内 存 
BEFGS 、 随 机 元 上 升 法 (stochastic meta ascent ) 等 。 

Dcc.mallet,pipe: 包含 流水 线 方法 ， 将 数据 处 理 为 MALLET 实 例 。 

口 cc, mal 1et.topics: 包含 主题 建 模 算法 ， 比 如 潜在 狄 利克 雷 分 配 ( LDA )、Four-Level 
Pachinko Allocation、 分 层 PAM、DMRT 等 。 

口 cc., mal1et.,types: 实现 了 基础 数据 类 型 ， 比 如 数据 集 、 特 征 向 量 、 实 例 、 标 签 。 

口 cc. mal1et. util :; 包含 其 他 杂项 实用 冰 数 ， 比 如 命令 行 处 理 、 搜 索 、 数 学 、 测 试 等 。 

































































2.2.7 ”比较 各 个 库 


表 2-1 总 结 并 列 出 了 目前 所 有 库 。 表 格 不 是 很 全 面 ， 除 列 出 的 这 些 库 之 外 ， 还 有 许多 针对 特 
定 问 题 域 的 其 他 库 。 表 中 列 出 的 只 是 Java 机 器 学 习 领 域 中 一 些 比较 有 名 的 库 。 























表 2-1 Java 机 器 学 习 库 





问题 域 许可 证 架 构 算 法 
Weka 通用 用 途 GNU GPL 单机 决策 树 、 杆 素 贝 叶 斯 、 神 经 网 络 、 随 机 森林 、AdaBoost、 
层次 聚 类 等 
Java-ML 通用 用 途 GNU GPL 单机 开 均 值 聚 类 、 自 组 织 映 射 、Markov chain clustering、 








Cobweb、 随 机 森林 、 决 策 树 、bagging、 距 离 度量 等 



























































Mahout 分 类 、 推荐 与 ”Apache 2.0 许 ”分 布 式 , 单机 “逻辑 回归 、 朴 素 贝 叶 斯 、 随 机 森林 、HMM、 多 层 感 知 
聚 类 可 证 器 、K 均 值 聚 类 等 

Spark 通用 用 途 Apache 2.0 许 ”分布 式 SVM、 人 逻辑 回归 、 决 策 树 、 杆 素 贝 叶 斯 、K 均 值 察 类 、 
可 证 线性 最 小 二 乘法 、LASSO、 岭 回归 等 

DLAJ 深度 学 习 Apache 2.0 许 “分布 式 , 单机 。 RBM、 深度 信念 网 络 、 深 度 自动 编码 器 、 递 归 神 经 张 
可 证 量 网 络 (recursive neural tensor networks) 、 卷 积 神经 

网 络 、 堆 倒 式 去 噪 自 编码 器 

MALLET 文本 挖掘 通用 公共 许 单机 杆 素 贝 叶 斯 、 决 策 树 、 最 大 粹 、 隐 马尔 可 夫 模 型 、 条 

可 证 1.0 件 随机 场 
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2.3 创建 机 器 学 习 应 用 




















机 顺 学 习 应 用 (特别 是 那些 与 分 类 相关 的 ) 通常 遵循 相同 的 高 级 工作 流程 ， 如 图 2-6 所 示 。 
工作 流程 由 两 个 阶段 组 成 : 训练 分 类 器 、 对 新 实例 做 分 类 。 正 如 你 在 图 2-6 中 看 到 的 那样 ， 这 两 


个 阶段 有 一 些 相同 步骤 。 











一 个 被 选中 的 监督 学 习 算法 月 


图 2-6 ”机 器 学 习 应 用 工作 流程 
首先 , 使 用 一 组 训练 数据 , 从 中 选取 典型 子 集 作为 训练 集 , 对 缺失 数据 做 预 处 理 , 提取 特征 。 

















于 训练 模型 ,第 二 个 阶段 将 使 用 这 个 模型 。 第 二 个 阶段 中 ， 先 对 新 





数据 实例 做 预 处 理 , 再 提取 特征 ,然后 应 用 训练 好 的 模型 得 到 实例 标签 。 如 有 果 你 能 收集 新 的 打 过 














标签 的 数据 ,就 可 以 周期 性 地 再 次 运行 学 习 阶 段 , 重新 训练 模型 ,然后 在 分 类 





模型 代替 旧 模型 。 


传统 的 机 器 学 习 架 构 











阶段 用 新 训练 好 的 





结构 化 数据 ( 比如 交易 数据 、 客 户 数据 、 分 析 数 据 、 市 场 数据 ) 通常 存储 在 本 地 关系 数据 库 
中 。 给 出 一 门 查询 语言 一 一 比如 SQL 一 一 我 们 就 可 以 查询 要 处 理 的 数据 ， 就 像 前 图 工作 流 中 显示 
的 那样 。 通 常 ， 所 有 数据 都 能 存储 在 内 存 中 ， 并 且 可 以 使 用 机 顺 学 习 库 〈 比如 Weka 、Java-ML、 


MALLET ) 对 它们 做 进一步 处 理 。 



































架构 设计 中 通常 的 做 法 是 创建 数据 流水 线 , 划分 工作 流 中 的 不 同步 又。 比如 ,为 了 创建 一 条 
客户 数据 记录 ,我 们 可 能 必须 从 不 同 数据 源 采 集 数据 ,然后 把 记录 保存 到 一 个 中 间 数 据 库 ， 等 待 














进一步 处 理 o 


























为 了 理解 大 数据 架构 在 高 级 层面 上 有 何不 同 ， 我 们 先 搞 清楚 什么 样 的 数据 才 是 大 数据 。 


2.4 ”处 理 大 数据 


“大 数据 ”这 一 术语 出 现 之 前 ， 大 数据 存在 已 入 ， 比 如 银行 与 证 券 交易 所 多 年 来 每 天 处 理 的 


交易 量 有 几 十 亿 笔 ;航空 公 


司 拥有 全 球 性 的 实时 业务 文 撑 设 施 ， 用 来 操作 管理 





乘客 预约 信息 等 。 
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那么 ， 大 数据 究竟 是 什么 ?” Doug Laney (2001 ) 提出 用 3 个 V 定 义 大 数据 ， 即 规模 (volume )、 快 
速 (velocity )、 多 样 ( variety )。 因 此 ， 回 答 你 的 数据 “是 不 是 大 数据 ”的 问题 时 ， 我 们 可 以 把 这 
个 问题 分 解 成 如 下 三 个 小 问题 。 


口 规模 ( Volume ): 你 的 数据 可 以 存储 在 内 存 中 吗 ? 
口 快速 (Velocity ): 你 可 以 用 一 台 机 需 处 理 新 输入 的 数据 吗 ? 
口 多 样 (Variety ): 你 的 数据 源 只 有 一 个 吗 ? 


对 于 上 面 这 三 个 问题 ， 如 果 你 的 回答 全 是 肯定 的 , 那么 你 的 数据 很 可 能 不 是 大 数据 。 这 样 就 
没有 什么 可 担心 的 了 ， 因 为 这 时 你 可 以 把 应 用 程序 架构 设计 得 很 简单 。 

如 果 你 的 回答 全 是 否定 的 , 那么 你 的 数据 就 是 大 数据 。 然 而 ,如 果 回 答 中 既 有 肯定 的 也 有 和 否 
定 的 ， 那 问题 就 有 点 复杂 了 。 有 些 人 可 能 认为 “这 个 ”VY 重 要 ， 而 另 一 些 人 可 能 认为 “那个 ”V 
更 重要 。 从 机 器 学 习 的 观点 看 ,处 理 内 存 中 的 数据 与 分 布 式 存储 中 的 数据 时 ,两 者 的 算法 实现 根 
本 不 同 。 因 此 ,依据 经 验 , 通常 的 做 法 是 : 如 果 你 不 能 把 数据 保存 到 内 存 ， 那么 应 该 尝试 使 用 大 
数据 机 需 学 习 库 。 

这 个 问题 的 确切 答案 依赖 于 你 尝试 解决 的 问题 。 新 项 目 启动 之 初 ， 我 建议 你 先 从 单机 库 
( single-machine library ) 开始 ， 如 果 不 适 合 把 所 有 数据 放 和 内存， 请 尽 可 能 先 使 用 数据 的 子 集 为 
算法 创建 原型 ,一 旦 初步 结果 令 人 满意 ,你 可 以 再 考虑 使 用 一 些 “ 重 型 "工具 ,比如 Mahout 或 Spark。 
























































































































































大 数据 应 用 架构 

大 数据 ( 比如 文档 、 博 客 、 社 交 网 络 、 传 感 器 数据 等 ) 通常 存储 在 一 个 NoSQL 数 据 库 〈( 比如 
MongoDB ) 或 分 布 式 文件 系统 ( 如 HDFS ) 中 。 如 果 要 处 理 结构 化 数据 , 可 以 使 用 Cassandra 或 HBase 
(建立 在 Hadoop 上 ) 等 系统 部 署 数据 库 功 能 。 数 据 处 理 遵循 MapReduce 范 式 ， 它 会 把 数据 处 理 问 
题 划分 成 更 小 的 子 问题 ， 并 把 任务 分 配 到 各 处 理 节点 。 机 器 学 习 模 型 最 终 要 使 用 Mahout 、Spark 
等 机 器 学 习 库 进行 训练 。 












































MongoDB 是 一 个 NoSQL 数 据 库 ， 采 用 与 JSON 类 似 的 格式 存储 文档 。 更 多 内 
容 请 访问 https:/www.mongodb.org。 

Hadoop 是 一 个 分 布 式 基础 框架 ， 通 过 它 可 以 充分 利用 计算 机 集群 的 能 
对 大 数据 集 进行 分 布 式 处 理 。Hadoop 拥 有 自己 的 文件 系统 HDFS、 作 业 调 度 框 架 
YARD , 并 且 针 对 并 行 数据 处 理 实现 了 MapReduce 方 法 。 关 于 Hadoop 的 更 多 内 容 ， 
请 前 往 http://hadoop.apache.org/ 学 习 。 

Cassandra 是 一 个 分 布 式 数据 库 管理 系统 ， 拥 有 可 容错 、 可 扩展 的 分 散 存 储 
数据 的 能 力 。 更 多 信息 请 前 往 http://cassandra. apache.org/ 学 习 。 

HBase 也 是 一 个 数据 库 ， 它 关注 的 重点 是 对 分 布 式 存储 的 随机 读 写 访问 。 更 
多 信息 请 前 往 https://hbase.apache.org/ 学 习 。 
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2.5 小结 


你 选择 的 机 器 学 习 库 对 你 的 应 用 程序 架构 有 着 重要 影响 ,关键 是 考虑 项 目 需求 。 你 拥有 什么 
样 的 数据 ?你 试图 解决 什么 样 的 问题 ”你 的 数据 够 大 吗 ?你 需要 分 布 式 存储 吗 ” 你 打算 使 用 哪 
种 算法 ?一 旦 你 搞 清 了 解决 问题 时 都 需要 些 什么 ， 接 着 就 可 以 选择 一 个 最 适合 你 需求 的 库 。 [| 


下 一 章 将 学 习 如 何 使 用 这 些 现成 的 库 完 成 一 些 基本 的 机 器 学 习 任 务 , 比如 分 类 、 回归 、 至 类 。 




















第 3 章 











第 2 章 学 习 了 几 个 主要 的 Java 机 器 学 习 库 及 其 功能 ， 本 章 我 们 将 使 用 这 些 库 ， 完 成 一 些 基 本 
的 机 咒 学 习 任 务 。 首 先 详细 了 解 基 本 的 机 器 学 习 任 务 ， 比 如 分 类 、 回 归 、 聚 类 。 每 一 个 主题 都 会 
介绍 有 关 分 类 、 回 归 、 素 类 的 基本 算法 。 本 章 给 出 的 示例 数据 集 小 而 简单 ， 很 容易 理解 。 


本 章 涵 盖 主 题 如 下 : 

口 加 载 数据 

口 过 滤 属 性 

口 创建 分 类 、 回 归 、 聚 类 模型 
口 评估 模型 




















3.1 开始 之 前 
首先 ， 从 http://www.cs.waikato.ac.nz/ml/weka/downloading.html 下 载 Weka 3.6 最 新 版 。 


在 页 面 上 ,你 可 以 看 到 有 多 个 下 载 项 可 用 。 我 们 想 在 源 代码 中 将 Weka 用 作 库 ， 所 以 跳 过 那 
些 自 解压 可 执行 文件 , 在 Other platforms (Linux, etc.) 中 点 击 here， 下 载 包含 Weka 的 ZIP 文 档 ， 如 
3-1 所 示 。 然 后 解压 缩 下 载 的 文档 ， 在 解压 后 得 到 的 文件 夹 中 ， 找 到 weka.jar 文 件 。 





Other platforms (Linux, etc.) 


Click here to download a zip archive containing Weka 
(weka-3-7-11.zip; 33.2 MB) 


First unzip the zip file. This will create a new directory called weka-3-7-11. To run Weka, change into that directory 
and type 


ava ~Xmx1000M -jar weka.jar 


Note that Java needs to be installed on your system for this to work. Also note, that using -jar will override your 
current CLASSPATH variable and only use the weka. jar 











图 3-1 Other platforms (Linux, etc.) 页 面 








使 用 Eclipse IDE 展 现 示例 ， 如 下 : 


(1) 启动 一 个 新 的 Java 项 目 ; 
(2) 右键 点 击 项 目 属性 , 选择 Java Build Path ; 点 击 Libraries 选 项 卡 , 选择 Add External JARs; 
(3) 导航 到 解压 后 的 文件 夹 ， 选 择 weka. j ar 文件 。 


上 面 就 是 需要 准备 的 全 部 内 容 ， 下 面 实现 基本 的 机 器 学 习 技 术 。 


























3.2 分 类 


我 们 将 从 最 常用 的 机 器 学 习 技 术 一 一 分 类 开始 学 起 。 正 如 第 1 章 所 讲 ， 主 要 思想 是 在 输入 变 
量 与 输出 结果 之 间 自 动 创建 一 个 映射 。 接 下 来 , 我们 将 学 习 如 何 加 载 数 据 、 选 择 特征 、 实 现 一 个 
基本 的 Weka 分 类 器 ， 以 及 对 分 类 器 的 性 能 进行 评估 。 


























3.2.1 数据 


要 完成 这 项 任务 ， 先 要 看 看 200 数 据 库 [ r ef ] 。 这 个 数据 库 包含 101 个 关于 动物 的 数据 项 ， 
种 动物 使 用 18 个 属性 进行 描述 ， 如 表 3-1 所 示 。 











表 3-1 ZOO 数 据 库 


animal aquatic fins 

hair predator legs 
feathers toothed tail 

eggs backbone domestic 
milk breathes cat size 
cat size venomous type 





从 数据 集中 选择 一 个 数据 项 一 一 lion 作 为 例子 ， 其 属性 如 下 。 





Danimal: lion 
Dhair: true 
Dfeathers: false 
Deggs: false 
Dmlk: true 
Dairbone: false 
Daquatic: false 
Dpredator: true 
Dtoothed: true 
Dbackbone: true 
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Dbreaths: true 
Dvenomous: false 
Dfins: false 
Dlegs: 4 

Dtail: true 
Ddomestic: false 
Ddomestic: false 





Dtype: mammal 














我 们 的 任务 是 创建 一 个 模型 ,通过 输入 的 所 有 其 他 属性 预测 结果 














3.2.2 ”加 载 数 据 

















下 





这 | 


之 


量 一 一 ani mal 。 


开始 分 析 之 前 ， 先 将 数据 加 载 为 Weka 的 ARRF 格 式 ， 并 打印 加 载 的 实例 总 数 。 所 有 数据 样本 











都 包含 在 一 个 | nst ances 对 象 中 ， 带 有 元 信息 的 完整 数据 集 由 该 | nst ances 对 象 进行 处 理 。 








加 载 输入 数据 之 前 ， 需 要 先 创 建 Dnat agour ce 对 象 。 它 可 以 接受 各 种 文件 格式 ， 并 将 其 转换 


成 | nstances。 


DataSource source = new DataSource(args[0]); 
Instances data = source. getDataSet(); 


System.out.println(data.numlnstances() + " instances loaded.") 


/1 System.out.println(data.toString())}); 
加 载 的 instances 数 量 输出 如 下 : 
101 i nstances | oaded. 


此 外 ， 调 用 data.to5tring() 方 法 ， 打 印 整个 数据 集 。 
我 们 的 任务 是 学 习 创建 模型 ， 以 便 预 测 新 样本 的 ani mal 


























属性 。 对 于 这 些 新 样本 ， 我 们 只 知 








道 它们 的 一 些 其 他 属性 ， 但 不 知道 它们 的 ani mal 属性 。 因 此 ， 从 训练 集中 移 除 ani mal 属性 。 为 











此 ， 只 要 使 用 Re move 过 滤器 将 ani mal 属性 过 滤 即 可 。 





首先 , 设置 一 个 参数 的 字符 串 表 ,指定 必 须 移 走 第 一 个 属性 。 其 


练 分 类 器 。 


Remove remove 
String[] opts 


new Removel(); 
new String[]{ "-R", "1"}; 








属性 用 作 数 据 








oe ， 用 来 训 


最 后 ， 调 用 Fi lter.useFfilter(lnstances，Fi|ter) 静 态 方法 ,将 过 滤器 应 用 于 所 选 数 


据 集 。 


remove.set Options(opts),; 








remove.setlnputFormat (data) 
data = Filter.usefilter(data, remove); 


3.2.3 ”特征 选择 


又 
第 1 章 已 经 介绍 过 ， 预 处 理 过 程 中 ， 最 重要 的 一 个 步 又 是 特征 选择 ， 也 叫 属性 选择 。 它 的 目 
标 是 选择 相关 属性 的 一 个 子 集 , 用 在 学 习 模型 中 。 为 什么 特征 选择 如 此 重要 呢 ? 因为 一 个 更 小 的 
盟 性 集 可 以 简化 模型 ,并且 让 它们 更 容易 被 用 户 解释 , 这样 通 常会 减少 所 需 的 训练 时 间 ， 也 会 降 
低 过 拟 合 的 风险 。 


做 属性 选择 时 ， 可 以 考虑 类 值 ， 也 可 以 不 考虑 。 第 一 种 情况 下 ， 可 以 使 用 属性 选择 算法 评估 
特征 的 不 同 子 集 , 并 且 计 算出 一 个 分 数 , 表明 所 选 属性 的 品质 。 我 们 可 以 使 用 不 同 的 搜索 算法 ( 比 
如 穷 举 搜索 、 最 佳 优 先 搜 索 ) 与 不 同 的 品质 分 数 ( 比如 信息 增益 、 基 尼 指 数 等 )。 

Weka 提 供 了 一 个 Attri buteSelection 对 象 进行 属 性 选择 ， 它 需要 两 个 额外 的 参数 : 评价 
髓 (evaluator )， 用 于 计算 属性 的 有 用 程度 ; 排行 器 (ranker )， 用 于 根据 评价 者 给 出 的 分 数 对 属 
性 进行 分 类 排序 。 

这 个 示例 中 ,我 们 将 把 信息 增益 用 作 评 价 器 ,通过 它们 的 信息 增益 分 数 对 特征 进行 分 类 排序 。 


lnfoGai nAttributeEval eval = new InfoGainAttributeEval(); 
Ranker search = new Ranker(); 


接 下 来 ， 对 Att ri buteSel ecti on 对 象 进 行 初始 化 ， 设 置 评价 器 、 排 行 锅 与 数据 。 


Attribute9election att9elect = new AttributeSelection(); 
attSelect.setEval uator(eval); 
attSelect.setSearch(search) 
attSelect.SelectAttributes(data) 


最 后 ， 将 属性 索引 数组 转换 成 字符 串 并 打印 如 下 : 














































































































int[] indices = attSelect.,selectedAttributes(); 
System.out.println(Utils.arrayToString(indices)); 
输出 结果 如 下 : 


12, 3, 7, 2, 0, 1, 8, 9, 13, 4, 11 5, 15, 10, 6, 14, 16 


最 有 价值 的 属性 是 12 (fins )、3 (eggs )、7 (aquatic )、2 (hair ) 等 。 基 于 这 个 结果 ， 按 次 序 
剔除 无 用 特征 ， 让 学 习 算 法 生成 更 准确 、 更 快 的 学 习 模 型 。 

那么 ,“ 要 保留 多 少 个 属性 ”最 后 是 由 什么 决定 的 呢 ? 对 于 确切 的 数目 ， 没 有 什么 现成 的 经 
验 可 以 借鉴 , 究竟 保留 多 少 属性 取决 于 具体 的 数据 与 问题 。 属 性 选择 的 目的 是 选择 那些 可 以 让 你 
的 模型 变 得 更 好 的 属性 ， 所 以 应 该 把 重点 放 在 考察 “属性 是 否 有 助 于 进一步 改进 模型 ”上 。 
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分 类 、 回 归 和 聚 类 





3.2.4 学 习 算 法 


加 载 数 据 并 选 好 最 佳 特 生 




















F 后 ， 接 下 来 学 习 一 些 分 类 模型 。 先 从 最 基本 的 决策 树 开 始 。 





Weka 中 , 决策 树 在 | 48 类 中 实现 , 它 重新 实现 了 著名 的 Quinlan's C4.5 决 策 树 学 习 骨 (Quinlan ， 


1993 )。 





首先 ， 初 始 化 一 个 新 的 | 48 决策 树 学 习 器 。 可 以 使 用 一 个 字符 串 表 传递 额外 的 参数 ， 比 如 剪 
枝 (tree pruning )， 它 用 来 控制 模型 的 复杂 度 ( 请 参考 第 1 章 )。 例 子 中 ， 我 们 将 创建 一 棵 未 剪 枝 
树 (un-pruned tree )， 为 此 传递 一 个 4 参数 。 


| 48 
Stri 
opti 


[ee 


RE 





Sys 


输出 





J 48 


feat 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
f 


eat 
Numb 


Size 


tree = new J48(); 











ng[] options = new String[1]; 


ons[0] = "-U",; 


.SetOptions(options); 





.buildClassifier(da 





创建 好 的 模型 存储 在 t res 


em.out.println(tree 


结果 如 下 : 


unpruned tree 





接 下 来 ， 调 用 bui1dClassifier(lnstances) 方 法 ， 对 学 习 过 程 进行 初始 化 。 


a) ; 


对 象 中 。 可 以 调用 toStri ng( ) 方法 输出 整个 | 48 未 甬 校 树 。 





hers = false 

milk = false 

| backbone = false 

| | airborne = false 

| | | predator = false 

| | | | legs <= 2: invertebrate (2,0) 
| | | | leygs > 2: insect (2.0) 

| | | predator = true: invertebrate (8.0) 
| | airborne = true: insect (6,0) 

| backbone = true 

| | fins = false 

| | | tail = false: amphibian (3,0) 

| | | tail = true: reptile (6.0/1.0) 

| | fins = true: fish (13.0) 

milk = true: mammal (41.0) 

hers = true: bird (20.0) 

er of Leaves : .9 

of the tree : ..17 
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从 输出 结果 可 以 看 到 ， 未 剪 枝 树 总 共有 17 个 节点 ， 其 中 9 个 是 叶子 (Leaves )。 
另 一 种 呈现 树 的 方法 是 利用 内 建 的 Tr eeVi sualizer 树 浏览 器 ， 代 码 如 下 : 


TreeVisualizer tv = new TreeVisualizer(null, tree.graph()}, new PlaceNode2()); 
JFrame frame = new javax.swing.jFrame("Tree Visualizer"),; 

frame.setSize(800, 500); 

frame.setDef aul tCloseOperation(JjFrame. EXIT_ ON_CLOSE), 

frame. get ContentPpane().add(tv),; 

frame. setVisible(true); 

tv.fitToScreen!(); 


代码 执行 结果 如 图 3-2 所 示 。 











r 
@e9g@ Tree Visualizer mg 
-Tree View 
= false = true 
= false = true 
= false = true = false = true 
= false = true = false = true 
站 = 这 >2 














图 3-2 代码 执行 结果 


决策 过 程 从 顶部 节点 (也 叫 根 节点 ) 开始 。 节 点 标签 指定 要 检查 的 属性 值 。 示 例 中 ， 先 检查 
feathers 属 性 的 值 。 如 果 f eat hers 属性 值 存在 ,进入 右手 分 支 ， 到 达标 记 为 bj r d 的 叶子 ,表示 
有 20 个 样本 支持 这 个 输出 结果 。 如 果 f eathers 属性 值 不 存在 ， 进 入 左手 分 支 ， 到 达 下 一 个 属 
性 一 一 mi | k ， 继 续 检查 mi 1k 属性 的 值 ， 然 后 进入 与 属性 值 相 匹 配 的 分 支 。 不 断 重 复 这 个 过 程 ， 
直到 到 达 叶 节点 。 


可 以 根据 如 下 步骤 创建 其 他 分 类 器 : 初始 化 一 个 分 类 器 ,传递 控制 模型 复杂 度 的 参数 ， 调 用 
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buildclassifier(lnstancesl) 方 法 。 


接 下 来 , 我们 将 学 习 如 何 使 用 一 个 经 过 训练 的 模型 ,为 一 个 标签 未 知 的 新 样本 指派 一 个 类 


3.2.5 ”对 新 数据 分 类 





假如 我 们 有 一 个 动物 的 属性 , 但 是 不 知道 它 的 标签 ,此 时 可 以 使 用 已 经 学 习 的 分 类 模型 进行 


预测 。 




















图 3-3 ”标签 未 知 的 动物 属 司 
首先 ， 构 造 一 个 特征 向 量 摘 述 新 样本 ， 代 码 如 下 : 








PT 


























double[] vals = new double[ data.numAttributes()]; 
val s[0] = 1.0; J//hair {false, true} 

vals[1] = 0.0 l/lfeathers {false, true} 

val s[2] = 0.0 /leggs {false, true} 

vals[3] = 1.0; //mlk {false, true} 

vals[4] = 0.0; //airborne {false, true} 

val s[5] = 0.0; //aquatic {false, true} 
vals[6] = 0.0 /11predator {false, true} 

val s[7] = 1.0 lltoothed {false, true} 
vals[8] = 1.0 11backbone {false, true} 

val s[9] = 1.0 l/lbreathes {false, true} 

val s[10] = 1.0 llvenomous {false, true} 

val s[11] = 0.0 llfins {false, true} 

val s[12] = 4.0; //legs INTEGER [0,9] 
vals[13] = 1.0; /i/tail {false, true} 
vals[14] = 1.0; //domestic {false, true} 

val s[15] = 0.0; J//catsize {false, true} 
Instance myUnicorn = new lnstance(1.0, vals),; 





然后 ， 调 用 模型 的 cl as sify(1nstance) 方 法 获取 类 值 ， 并 返回 标签 索引 ， 


double result = tree.classifylnstance(myUnicorn) 
System.out.println(data.classAttribute().value((int) result)); 


最 后 输出 的 结果 是 ma mmal 类 标签 。 








代码 如 下 : 


ww 
iD 
> 
立 
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3.2.6 评估 与 预测 误差 度量 


虽然 创建 了 模型 ， 但 还 不 知道 它 是 否 值得 我 们 信任 。 为 了 评估 其 性 能 ， 需 要 用 到 第 1 章 讲 到 
的 交叉 验证 技术 。 


Weka 提 供 Evaluation 类 ， 帮 助 我 们 实现 交叉 验证 。 使 用 时 ， 需 要 提供 模型 、 数 据 、 折 数 
( number of folds ) 以 及 一 个 初始 的 随机 种 子 ， 代 码 如 下 : 


Classifier c| = new J48(); 
Eval uation eval _roc = new Eval uation(data),; | 
eval _roc.crossValidateModel (cl|, data, 10, new Random(1), new 


0bj ect[] {}); 
System.out.println(eval roc.toSummaryString()); 


评估 结果 存储 在 Eval uati on 对 象 中 。 


调用 to5tring() 方 法 ， 显示 最 常用 的 指标 评估 结果 : 









































Correctly Classified lnstances 93 92,0792 % 
Incorrectly Classified lnstances 8 7,9208 % 
Kappa statistic 0.8955 

Mean absol ute error 0,0225 

Root mean Squared error 0.14 

Relative absolute error 10,2478 % 

Root relative squared error 42,4398 % 

Coverage of cases (0.95 level) 96,0396 % 

Mean rel, region size (0.95 level) 15, 4173 % 

Total Number of lnstances 101 





在 分 类 中 ， 我 们 感 兴 趣 的 是 正确 分 类 的 样本 数 与 错误 分 类 的 样本 数 。 





3.2.7 ”混淆 矩阵 
通过 检查 混淆 矩阵 , 可 以 进一步 查看 特定 的 错误 分 类 出 现在 什么 地 方 。 混 消 和 矩阵 指出 了 一 个 
特定 类 值 是 如 何 进 行 预测 的 。 


double[ ][] confusionMatrix = eval_roc.confusionMatrix(); 
System.out.println(eval roc.toMatrixString()}); 


上 述 代码 产生 的 混淆 和 矩阵 如 下 : 


=== Confusion Matrix === 





























<-… classified a5 
ma mma | 

bird 
reptile 

fish 
amphibian 


一 
OwWwPoococ 


POwoon 
Wooooop 
OoPoor 
Ooooou0xm 
mn | 


oonroyg 








insect 
invertebrate 


第 一 行 中 , 第 一 列 的 名 称 对 应 于 分 类 模型 指派 的 标签 。 然 后 ， 每 一 个 附加 行 对 应 于 一 个 实际 
为 真 的 类 值 。 比 如 ， 第 二 行 对 应 于 那些 实际 带 有 ma mmal 类 标签 的 实例 。 在 列 中 ， 读 取 所 有 被 正 
确 分 类 为 mammal s 的 哺乳 动物 。 第 四 行 “ 扑 行动 物 ” 中 ， 可 以 看 到 有 3 个 样本 被 正确 分 类 为 
reptile ， 一 个 被 分 类 为 fi sh ， 一 个 被 分 类 为 insect 。 由 此 可 见 ， 混 清和 矩阵 可 以 让 我 们 进一步 
了 解 分 类 模型 所 犯错 误 的 具体 类 型 。 











3.2.8 选择 分 类 算法 


机 器 学 习 中 , 朴素 贝 叶 斯 是 一 种 最 简单 、 最 有 效果 且 最 有 效率 的 归纳 算法 。 特 征 独立 〈 现实 
世界 中 很 少 有 这 种 情况 ) 时 ， 从 理论 上 来 说 , 这 是 最 好 的 。 即 使 带 有 从 属 特征 ， 它 的 性 能 也 是 非 
常 好 的 (Zhang，2004 )。 主要 缺点 是 它 不 能 学 习 特 征 之 间 如 何 进行 相互 作用 ， 比 如 ,尽管 你 喜欢 
往 茶 里 放 些 柠檬 或 牛奶 ， 可 你 讨厌 同时 放 和 二 者 。 


决策 树 的 主要 优点 在 于 ,模型 是 一 棵 树 ， 它 在 样本 的 学 习 过 程 中 很 容易 做 解释 与 说 明 。 决 策 
树 既 可 以 处 理 名 义 特征 ， 也 可 以 处 理 数值 特征 ， 并 且 不 用 担心 数据 是 否 是 线性 可 分 的 。 


其 他 一 些 分 类 算法 的 例子 如 下 。 


口 weka.classifiers,rules,.ZeroR: 预测 多 数 类 ， 并 被 看 作 基 准 线 。 如 果 你 的 分 类 器 

的 性 能 比 平均 值 预测 器 还 差 ， 就 不 值得 考虑 它 。 

口 weka.classifiers.trees.RandomTree: 构建 一 棵 树 ， 考 虑 每 个 节点 上 的 K 个 随机 选 

中 的 属性 。 

口 weka. classifiers.trees.RandomForest : 构建 一 组 随机 树 (森林 )， 并 且 使 用 多 数 

投票 算法 对 新 实例 进行 分 类 。 

Dweka, Classifiers,|1azy,1Bk:k 最 近邻 分 类 器 , 它 可 以 基于 交叉 验证 选择 一 个 合适 的 

邻居 值 。 

Dweka.classifiers.functions,Multilayerperceptron: 基于 神经 网 络 的 分 类 器 ， 
使 用 反 向 传播 算法 对 实例 进行 分 类 。 神 经 网 络 可 以 手工 建立 ， 也 可 以 使 用 算法 建立 , 或 
者 两 者 兼用 。 

口 weka.classifiers.bayes.NaiveBayes : 朴素 贝 叶 斯 分 类 器 ， 使 用 了 估计 器 类 

( estimator classes )， 基 于 对 训练 数据 的 分 析 选 择 数 值 估 计 器 的 精确 值 。 

口 weka.classifiers.,meta.AdaBoost Ml: 使 用 AdaBoost M1 方法 对 名 称 类 分 类 器 进行 

增强 ， 只 处 理 名 义 类 问题 。 在 提升 性 能 方面 表现 很 突出 ， 但 有 时 会 发 生 过 度 拟 合 问题 。 

Dweka, Classifiers,meta,Bagging: 将 多 个 基 分 类 需 组 合 在 一 起 ， 以 获得 更 为 强大 的 

分 类 器 。 可 用 于 进行 分 类 与 回归 ， 具 体 取 决 于 基 学 习 髓 (base learner )。 
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3.3 回归 


本 节 将 通过 分 析 能 源 效 率 数据 集 ( Tsanas 和 Xifara，2012 ) 学 习 基本 的 回归 算法 。 我 们 将 基 
于 建筑 的 结构 特点 ( 比如 表面 、 墙 体 与 屋顶 面积 、 高 度 、 紧 凑 度 ) 研究 它们 的 加 热 与 冷却 负载 要 
求 。 研 究 者 使 用 一 个 模拟 器 设计 了 12 种 不 同 的 房屋 配置 , 这 些 房屋 配置 通过 改变 18 种 建筑 特征 得 
出 ， 他 们 总 共 模 拟 了 768 种 建筑 。 

我 们 的 首要 目标 是 系统 分 析 每 种 建筑 特征 对 目标 变量 一 一 加 热 或 冷却 负载 一 一 产生 的 影响 。 
第 二 个 目标 是 比较 经 典 线性 回归 模型 相对 于 其 他 方法 ( 比如 SVM 回 归 、 随 机 森林 、 神 经 网 络 ) 的 
性 能 。 这 个 任务 中 ， 我 们 将 使 用 Weka 库 。 

































































3.3.1 加 载 数据 


从 https:Warchive.ics.uci.edu/ml/datasets/Energy+efficiency 下 载 能 源 效率 数据 集 。 得 到 的 数据 集 
采用 的 是 Excel 的 XLSX 格 式 ，Weka 不 能 读 取 这 样 的 格式 。 在 Excel 中 打开 数据 集 ， 单 击 “文件 - 另 
存 为 ”; 在 弹出 的 “另存 为 ”对 话 框 中 , 将 “保存 类 型 ”修改 为 CSV , 将 数据 集 转 换 为 CSV( Comma 
Separated Value， 喜 号 分 隔 值 ) 格式 文件 ， 如 图 3-4 所 示 。 然 后 单 击 “ 保 存 ”， 在 弹出 对 话 框 中 ， 
确保 只 存储 当前 工作 表 ( 其 他 两 个 工作 表 为 空 )， 单 击 “ 确 认 ”; 在 弹出 的 “如 果 另 存 为 CSV ( 去 
号 分 隔 )， 您 工作 簿 中 的 部 分 功能 可 能 会 丢失 ”， 单 击 “ 是 ”保存 。 现 在 ,数据 集 已 经 转换 为 适合 
Weka 加 载 的 数据 格式 。 


























Save As: ENB2012_data.csv 
Tags: 
Where: a datasets 


Format: Comma Separated Values (.csv) 
Description 
Exports the data on the active sheet to a text file that uses commas to separate values in cells. 


Learn more about file formats 


Options... Compatibility Report... Compatibility check recommended 








Cancel Save 








图 3-4 ”将 数据 集 转换 为 CSV 格 式 文件 
在 文本 编辑 器 中 打开 文件 ,检查 文件 转换 是 否 正确 。 转 换 过 程 中 可 能 出 现 一 些小 问题 ,它们 
会 对 后 续 数 据 处 理 带 来 潜在 问题 。 比如 , 在 我 转换 得 到 的 文件 中 , 每 一 行 数据 都 以 两 个 分 号 结 
如 下 : 
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X1; X2; X3; X4; X5; X6; X7; X8; Y1; Y2; 

0,98; 514,50; 294, 00;110,25;7,00;2;0,00;0;15,55;21,33; 
0,98;514,50;294,00;110,25;7,00;3;0,00;0;15,55;21,33; 

为 了 删除 双 分 号 , 可 以 使 用 文本 编辑 器 中 的 查找 与 替换 功能 , 查找 “; ; ”, 并 将 其 替换 为 “; ”。 


我 遇 到 的 另 一 个 问题 是 ， 文 档 结 尾 有 很 多 空 行 ， 如 下 所 示 ， 直 接 删 除 。 


0,62;808,50;367,50;220,50;3,50;5;0,40;5;16,64;16,03; 























至 此 ， 我 们 已 经 准备 好 数据 ， 接 下 来 加 载 即 可 。 新 打开 一 个 文件 ， 使 用 Weka 中 的 转换 器 编 
写 一 个 简单 的 数据 导入 函数 ， 读 取 CSV 格 式 的 文件 。 


import weka.core.|lnstances 

import weka.core.converters.CSVLoader 
import java.io.File, 

import java.io.|lOException,; 





public class EnergyLoad { 
public static void main(String[] args) throws |lOException { 


1 1 加 载 C9V 文 件 

CSVLoader loader = new CSVLoader(); 
loader.setSource(new File(args[0])); 
Instances data = |oader.getDataSet(); 


System.out.println(data) 
} 
} 


数据 已 经 加 载 ， 继 续 下 一 步 处 理 。 


3.3.2 分 析 属 性 


进行 属性 分 析 之 前 ， 先 了 解 要 处 理 什 么 。 总 共有 8 个 属性 描述 建筑 特征 ， 有 两 个 目标 变量 : 
heating 与 cooling。 




















出 | 





表 3-2 ”建筑 特征 属性 








属 性 属性 名 称 
Xl 相对 密实 性 
X2 表面 积 
X3 墙 体面 积 

















X4 屋顶 面积 
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( 续 ) 

属 性 属性 名 称 

X5 总 体高 度 

X6 方向 

X7 玻璃 窗 面积 

X8 玻璃 窗 区 域 分 布 

Yl 加 热 负载 

Y2 冷却 负载 





3.3.3 创建 与 评估 回归 模型 
首先 ， 在 特征 位 置 设 置 分 类 属性 ， 为 加 热 负 载 建立 学 习 模型 。 
data.setClasslndex(data.numAttributes() - 2); 

第 二 个 目标 变量 ( 冷却 负载 ) 现在 可 以 移 除 : 

1 移 除 最 后 属性 Y2 

Remove remove = new Removel( ) 

remove. set Options(new String[]{"-R", data.numAttributes()+""}); 


remove.setlnputFormat (data),; 
data = Filter.useFfilter(data, remove); 


1. 线性 回归 


首先 , 使 用 Li near Regressi on 类 创建 一 个 基本 的 线性 回归 模型 。 正如 在 分 类 示例 中 所 做 的 
那样 ， 先 初始 化 一 个 新 模型 实例 ， 传 递 参数 与 数据 ， 并 调用 bui 1 dCclassifier(lnstances) 方 
法 ， 代 码 如 下 : 


import weka.classifiers.functions.LinearRegression; 























data.setClasslndex(data.numAttributes() - 2); 
LinearRegression model = new LinearRegression(}); 
model .buildClassifier(data),; 
System.out.println(model 


最 后 学 习 的 模型 存储 在 model 对 象 中 ， 调 用 t oSt ri ng ( ) 方法 进行 输出 ， 如 下 所 示 : 


Y1 = 








"64.774 * 
"0.0428 * 
0.0163 * 
0.089 * X4 
4.1699 * 
9.9327 * 
0.2038 * 
3,9329 


十 十 十 十 十 十 十 
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线性 回归 模型 构建 了 一 个 函数 ， 它 把 输入 变量 线性 组 合 在 一 起 ,对 加 热 负 载 进行 评估 。 特 征 
前 面 的 数字 解释 特征 对 目标 变量 的 影响 : 符号 表示 正面 影响 或 负面 影响 , 而 大 小 对 应 于 影响 程度 。 
比如 特征 X1〈 相对 紧凑 度 )， 它 与 加 热 负载 是 负 相关 的 ， 而 玻璃 窗 面 积 与 加 热 负载 是 正 相 关 的 。 
这 两 个 特征 也 对 最 后 加 热 负载 的 评估 有 明显 影响 。 

使 用 交叉 验证 技术 可 以 对 模型 性 能 做 类 似 评估 。 


做 10 折 交 叉 验 证 ( 10-fold cross-validation ) 如 下 : 
























































Evaluation eval = new Eval uation(data) 

eval, crossyvalidateModel 

model, data, 10, new Random(1), new String[]{}); 
System.out.println(eval.toSummaryString()); 


这 样 即 可 输出 常见 的 评估 指标 , 包括 相关 系数 、 平 均 绝对 误差 、 相 对 绝对 误差 等 , 如 下 所 示 : 


Correlation coefficient 0.956 
Mean absol ute error 2.0923 
Root mean squared error 2.9569 
Relative absol ute error 22.8555 % 
Root relative squared error 29.282 % 
Total Number of lnstances 768 

2. 回归 树 





另 一 个 方法 是 构建 一 组 回归 模型 ， 每 一 个 模型 对 应 于 数据 中 与 其 自身 相关 的 部 分 。 图 3-5 展 
示 了 回归 模型 与 回归 树 之 间 的 主要 不 同 。 回归 模型 指 的 是 一 个 与 所 有 数据 达到 最 好 拟 合 的 独立 模 
型 ; 而 回归 树 是 一 组 回归 模型 ， 每 个 模型 只 对 一 部 分 数据 进行 建 模 ， 如 图 3-5 右 图 所 示 。 相 比 于 
回归 模型 ， 回 归 树 对 数据 的 拟 合 更 好 ， 但 函数 在 两 块 建 模 区 域 之 间 呈 现 线性 分 段 现象 。 





















































图 3-5 ”回归 模型 与 回归 树 的 不 同 


Weka 中 的 M5 类 用 于 实现 回归 树 。 创 建 模型 时 ， 遵 从 步骤 与 前 面 一 样 : 初始 化 模型 、 传 递 参 
数 与 数据 、 调 用 bui1dClassifier(lnstances) 方 法 。 


import weka.classifiers.trees. M5P; 








M5p md5 = new M5P(); 
md5.setOptions(new String[]{""}); 
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md5.buildClassifier(d 
System.out.println(md 





ata) 
0) 


该 归纳 模型 是 一 棵 叶 节 点 带 有 方程 式 的 树 ， 如 下 : 





MB 经 过 剪 枝 的 模型 树 : 
(使 用 平滑 线性 模型 ) 
X1 <= 0.75 
| X7 <= 0,175 ; 
| | Xl1 <= 0.65 LM1 (48/12.841%) 
| | X1 > 0,65 LM2 (96/3.201%) 
| X7 > 0.175 : 
| | X1 <= 0.65 : LM3 (80/3.652%) 
| | X1 > 0.65 :; LM4 (160/3,.,502%) 
X1 > 0.75 ; 
| Xl1 <= 0.805 :; LM5 (128113,302%) 
| X1 > 0.805 : 
| | X7 <= 0,175 : 
| | | X8 <= 1.5 :; LM6 (32/20.,992%) 
| | | X8 > 1.5 
| | | | Xl1 <= 0.94 : LM7 (48/5,693%) 
| | | | Xl1 > 0.94 :; LM8 (16/1,.119%) 
| | X7 > 0.175 : 
| | | Xl <= 0,84 ! 
| | | | X7 <= 0,325 :; LM9 (2015,4519%) 
| | | | X7 > 0.325 :; LM10 (20/5,.632%) 
| | | Xl1 > 0.84 : 
| | | | X7 <= 0,325 :; LM1I1 (6014,548%) 
| | | | X7 > 0.325 ! 
| | | | | X3 <= 306,25 ; LM12 (4014,504%) 
| | | | | X3 > 306.25 :; LM13 (2016,934%) 
LM num: 1 
Y1 = 

72,2602 * X1 

+ 0.0053 * X3 

+ 11,1924 * X7 

+ 0.429 * X8 

36,2224 

LM num: 13 
Y1 = 

5,8829 * X1 


+ 0.0761 * X3 
+ 9.5464 * X7 

0.0805 * X8 
+ 2.1492 


Number of Rules : 13 





es 
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这 棵 树 总 共有 13 个 叶子 , 每 个 叶子 对 应 于 一 个 线性 方程 。 对 预测 输出 做 可 视 化 处 理 , 如 图 3-6 
所 示 。 




















图 3-6 ”对 预测 的 可 视 化 处 理 


这 棵 树 的 读 取 方法 与 分 类 树 类 似 。 最 重要 的 特征 在 树 顶 。 终端 节点 (叶子 ) 包含 一 个 线性 回 
归 模 型 ， 用 于 解释 到 达 这 部 分 的 数据 。 


评估 结果 输出 如 下 : 














Correlation coefficient 0,9943 
Mean absolute error 0.7446 
Root mean squared error 1,.0804 
Relative absol ute error 8.1342 % 
Root relative squared error 10,6995 % 
Total Number of lnstances 768 


3.3.4 避免 常见 回归 问题 的 小 技巧 


首先 , 使 用 以 前 的 研究 与 领域 知识 弄 清 哪些 特征 包含 在 回归 中 。 查 阅 文献 资料 、 报 告 与 以 前 
的 研究 ， 了解 你 的 问题 涉及 哪些 特征 ， 以 及 可 以 使 用 哪些 变量 建 模 。 假 设 你 有 大 量 关 于 随机 数据 
的 特征 ， 但 很 可 能 只 有 几 个 特征 与 目标 变量 相关 (尽管 数据 是 随机 的 )。 











要 尽量 让 模型 保持 简单 ， 防 止 过 度 拟 合 。 奥 卡 姆 剃刀 原理 告诉 我 们 : 应 该 在 最 少 的 假设 下 选 
择 一 个 可 以 解释 数据 的 最 佳 模 型 。 事 实 上 ， 模 型 可 以 简单 到 只 有 2~4 个 预测 需 特 征 。 
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3.4 聚 类 


相 比 于 有 监督 的 分 类 器 ， 聚 类 的 目标 是 从 一 组 未 打 标 签 的 数据 中 识别 相似 对 象 组 。 它 可 
以 用 于 识别 同类 群体 的 代表 性 样本 ， 找 到 有 用 与 合适 的 分 组 ; 或 者 找到 不 寻常 的 样本 ， 比 如 
异常 值 。 


下 面 通过 分 析 银 行 数据 集 演示 如 何 实 现 取 类。 数据 集 包 含 600 个 实例 ， 每 个 实例 用 11 个 属性 
进行 描述 ， 这 些 属 性 包括 年 龄 、 性 别 、 地 区 、 收 入 、 婚 姻 状 况 、 是 否 有 子女 、 汽 车 拥有 情况 、 存 
款 活动 、 当 前 活动 、 房地产 抵押 、PEP。 分 析 中 , 我 们 将 尝试 使 用 EM ( Expectation Maximization ， 
期 望 最 大 化 ) 聚 类 算法 识别 常见 的 客户 组 。 


EM 工作 过 程 如 下 : 给 定 一 组 艇 〈 clusters )，EM 首 先 为 每 个 实例 指派 一 个 属于 某 个 特定 簇 的 
概率 分 布 。 比 如 ， 起 初 有 3 个 徐 A、B、C， 一 个 实例 分 别 属于 艇 A、B、C 的 概率 分 布依 次 为 0.7、 
0.10、0.20。 第 二 步 中 ，EM 重 新 评估 每 个 类 的 概率 分 布 的 参数 向 量 。 算 法 不 断 对 这 两 步 做 迭代 ， 
直到 参数 收敛 或 者 达到 迭代 的 最 大 值 。 


对 于 EM 中 使 用 的 复数 ， 可 以 手动 设置 ， 也 可 以 通过 交叉 验证 进行 自动 设置 。 另 外 一 个 确 
定数 据 集中 复数 的 方法 是 肘 部 法 则 ( elbow-method )， 这 个 方法 会 查看 特定 复数 所 解释 的 偏差 
百分比 。 使 用 该 方法 会 不 断 增加 簇 数 ， 直 到 新 加 的 簇 不 会 带 来 很 多 信息 ， 即 只 能 解释 很 少 的 额外 
差异 。 



















































































3.4.1 聚 类 算法 
创建 聚 类 模型 的 过 程 与 创建 分 类 模型 的 过 程 很 类 似 ， 即 加 载 数据 与 创建 模型 。Weka 中 ， 使 
用 weka, clusterers 包 实现 聚 类 算法 ， 如 下 : 


import java.io.BufferedReader,; 
import java.io.FileReader 











import weka.core.lnstances 
import weka.clusterers.EM,; 


public class Clustering { 
public static void main(String args[]) throws Exceptiont 


11 加 载 数 据 
Instances data = new lnstances(new BufferedReader 
(new FileReader(args[0]))) 


11 聚 类 器 的 新 实例 

EM model = new EM() 

1 1 创建 聚 类 器 

model .buildClusterer(data) 
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分 类 、 回 归 和 聚 类 





System.out.println(model),; 


} 
} 


该 模型 识别 出 如 下 6 个 复 


Number of clusters selected by cross validation: 6 


Cluster 
Attribute 0 1 2 3 4 5 


age 
0_34 10.0535 51,8472 122.2815 12.6207 3,1023 1.0948 
35_51 38.,6282 24.4056 29.6252 89.4447 34.5208 3,3755 
52_max 13, 4293 6,693 6,3459 50,8984 37,861 81.7724 
[total] 62,1111 82,9457 158.2526 152.9638 75, 4841 86.2428 
Sex 
FEMALE 27,1812 32,2338 77.9304 83.5129 40.3199 44.8218 
MALE 33,9299 49,7119 79.3222 68.4509 34,1642 40, 421 
[total] 61,1111 81.9457 157.2526 151.9638 74.4841 85,2428 
region 
INNER_CITY 26.,1651 46.7431 73,874 60.1973 33,3759 34,6445 
TOWN 24,6991 13,0716 48.4446 53,1731 21,617 


17,9946 











上 表 解 读 如 下 : 第 一 行 表 明 有 6 个 艇 ,第 一 列 指出 属性 及 相应 范围 。 比 如 ， 属 性 age 划分 为 3 
个 区 段 : 0~34 、35~51、52~max 。 左 侧 列 表示 有 和 多少 个 实例 归 入 每 个 簇 的 特定 范围 ， 比 如 0 ~34 
年 龄 组 的 客户 大 部 分 位 于 复 刀 (122 个 实例 )。 








3.4.2 评估 


可 以 使 用 对 数 似 然 度量 (log likelihood measure ) 评估 聚 类 算法 的 质量 ， 即 测量 被 识别 的 艇 的 
一 致 程 度 。 数 据 集 划分 为 多 个 折 (folds )， 针 对 每 个 折 运 行 聚 类 。 这 么 做 的 动机 是 ， 如 果 聚 类 算 
法 为 相似 数据 ( 该 数据 不 用 于 拟 合 参数 ) 给 出 高 概率 , 那么 它 在 捕获 数据 结构 方面 可 能 做 得 很 好 。 
Weka 提 供 Cl ut erEval uati on 类 进行 评估 ， 代 码 如 下 : 














double logLikelihood = ClusterEvaluation.crossValidateModel (model, data, 10, new 
Random( 1)); 
System.out.println(logLikelihood) 


输出 结果 如 下 : 


-8.773410259774291 
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3.5 小结 


本 章 学 习 了 如 何 使 用 Weka 实 现 基本 的 机 器 学 习 任务 : 分 类 、 回 归 、 聚 类 ， 并且 对 属性 选择 
过 程 、 训 练 模型 与 评估 模型 性 能 做 了 简短 的 讨论 。 


下 一 章 将 主要 讲解 如 何 使 用 这 些 技术 解决 实际 问题 ， 比 如 客户 维系 ( customer retention ) 问 











题 。 





利用 集成 方法 预测 客户 天 系 
































不 论 哪 类 公司 ,无 论 是 提供 服务 、 卖 产品 ， 还 是 兜售 经 验 ， 都 需要 深刻 理解 他 们 与 客户 之 间 
的 关系 。 因 此 ， 做 好 客户 关系 管理 ( CRM ) 就 成 为 现代 营销 策略 的 关键 。 当 今 商业 面临 的 最 大 
挑战 之 一 就 是 准确 了 解 刺激 顾客 购买 新 产品 的 因素 。 


本 章 将 以 一 个 真实 的 营销 数据 库 一 Orange 作为 示例 , 它 由 法 国电 信 公 司 提供 。 我 们 的 任务 
是 针对 客户 行为 做 如 下 评 佑 : 


口 更 换 供应 商 〈 客 户 流失 ) 
口 购买 新 产品 或 服务 〈 购物 欲望 ) 
口 购买 升级 或 向 客户 推荐 购买 ， 从 销售 中 赚 取 更 多 利润 ( 追加 销售 ) 

我 们 将 一 起 尝试 解决 KDD ( 知识 发 现 与 数据 挖掘 ) Cup 2009 挑 战 赛 中 的 问题 ， 并 展示 使 用 
Weka 处 理 数据 的 步 又。 首先 ,解析 与 加 载 数据 ,并 实现 基本 的 基准 模型 (baseline models )。 然 后 
讲解 高 级 建 模 技术 ， 包 括 数据 预 处 理 、 属 性 选择 、 模 型 选择 与 评估 。 







































































KDD Cup 是 世界 最 著名 的 数据 挖 振 竞 赛 , 由 ACM SIGKDD ( Special Interest 
Group on Knowledge Discovery and Data Mining ) 每 年 组 织 一 次 。 最 终 冠 军 会 
在 Conference on Knowledge Discovery and Data Mining 进 行 公布 ， 通 常 在 8 月 。 

历年 文档 一 一 包括 所 有 相应 数据 集 一 一 都 可 以 在 http:/www.kdd.org/kdd-cup 
上 找到 。 





4.1 客户 关系 数据 库 
建立 有 关 客 户 行为 的 知识 时 ， 最 实用 的 方法 是 生成 分 数 ， 用 来 解释 目标 变量 ， 比 如 流失 量 、 
购买 欲望 或 追加 销售 。 分 数 由 模型 计算 得 到 ， 计 算 时 需要 用 到 描述 客户 的 输入 变量 ， 比 如 当前 
订阅 、 已 购买 设备 、 消 耗 时 间 等 。 这 些 分 数 之 后 会 被 信息 系统 使 用 ， 比 如 提供 相关 的 个 性 化 营 
销 行为 。 

2009 年 ，KDD 大 会 组 织 了 一 场 关 于 客户 关系 预测 的 机 器 学 习 挑 战 赛 。 
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4.1.1 挑战 
给 定 大 量 客户 属性 ， 对 下 面 三 个 目标 变量 进行 评估 ( KDD Cup，2009 )。 


口 流失 概率 (Churn probability ): 我 们 的 示例 中 ， 流 失 概率 指 客户 更 换 供 应 商 的 可 能 性 。 
流失 率 (Chum rate ) 有 时 也 叫 损 耗 率 (attrition rate )。 它 是 决定 一 门生 意 所 拥有 的 客户 稳 
定 水 平 的 两 个 主要 因素 之 一 。 从 广义 上 说 ， 流 失 率 衡量 某 个 特定 时 期 内 个 人 或 物品 移入 
或 移出 某 个 集合 的 数目 。 这 个 术语 应 用 于 许多 领域 ， 但 在 商业 领域 应 用 最 广泛 ， 与 契约 
式 客户 群 有 关 。 比 如 ,不 管 哪 门生 意 ， 拥 有 一 个 基于 订阅 用 户 的 服务 模型 是 非常 重要 的 ， 
包括 移动 通信 网 络 与 付费 电视 运营 商 。 这 个 术语 也 指 对 等 网 络 中 的 参与 者 成 交 量 
( participant turnover )。 

口 购买 概率 ( Appetency probability )， 我 们 的 示例 中 ， 它 指 用 户 购买 一 项 服务 或 产品 的 倾向 。 

口 追加 销售 概率 ( Upselling probability )， 指 一 个 客户 购买 附属 商品 或 升级 购买 的 可 能 性 。 
追加 销售 ( Upselling ) 是 一 项 销售 技术 ， 借 此 ， 销 售 人 员 尝 试 让 客户 购买 更 昂贵 的 商品 、 
升级 购买 或 购买 其 他 附属 商品 ， 谋 求 更 多 销售 利润 。 追 加 销售 通常 指向 客户 推销 更 有 利 
可 图 的 服务 或 产品 ， 但 也 可 以 指 简单 地 把 那些 客户 之 前 未 考虑 购买 的 商品 展现 给 他 们 。 
追加 销售 暗 指 销售 一 些 额 外 的 商品 ， 或 销售 那些 更 赚钱 的 商品 ; 或 者 相反 ， 销 售卖 方 更 
希望 卖 出 的 商品 ， 而 非 销售 原来 那些 商品 。 


这 项 挑战 赛 在 Orange Labs 开 发 的 内 部 系统 中 展开 。 对 于 那些 参加 者 而 言 ,这 是 一 个 难得 机 会 ， 
他 们 可 以 借 此 证 明 自 己 有 能 力 处 理 大 型 数据 库 ， 包 括 混合 的 噪声 数据 与 不 平衡 的 类 分 布 。 






































































































































4.1.2 数据 集 


这 次 挑战 赛 中 ,Orange 公 司 提供 了 一 个 关于 客户 数据 的 大 型 数据 集 , 包含 大 约 100 万 个 客户 ， 
使 用 了 10 个 表格 与 几 百 个 字段 进行 描述 。 第 一 步 中 ,他 们 对 数据 重新 抽样 ,选择 一 个 较 平衡 的 子 
集 , 包含 100 000 个 客户 。 第 二 步 中 , 他 们 使 用 一 个 自动 特征 构建 工具 生成 20000 个 特征 描述 客户 ， 
然后 把 特征 数 减少 到 15 000 个 。 第 三 步 中 ， 将 特征 顺序 随机 打 乱 ， 丢弃 属性 名 ,使 用 随机 生成 的 
字符 串 蔡 换 名 义 变量 ,用 一 个 随机 因子 乘 以 连续 属性 ， 对 数据 集 做 匿名 化 处 理 。 最 后 ， 把 所 有 实 
例 随 机 划分 为 训练 数据 集 与 测试 数据 集 。 


KDD Cup 提 供 了 两 组 数据 : 大 型 数据 集 与 小 型 数据 集 , 依次 对 应 于 快速 挑战 与 慢 速 挑战 。 在 
KDD Cup 网 站 中 描述 如 下 : 


训练 集 与 测试 集 包 含 50 000 个 样本 。 数 据 被 类 似 地 划分 为 小 型 版 本 和 大 型 版 本 ， 但 
在 训练 集 与 测试 集中 ,样本 的 排列 顺序 不 同 。 小 型 数据 集 与 大 型 数据 集 都 有 数值 与 分 类 
变量 。 就 大 数据 集 而 言 ， 前 14 740 个 变量 是 数值 型 ， 后 面 260 个 是 分 类 型 。 对 于 小 型 数 
据 集 而 言 ， 前 190 个 变量 是 数值 型 ， 后 面 40 个 是 分 类 型 。 
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本 章 将 使 用 小 型 数据 集 ， 它 包含 50 000 个 实例 ， 每 个 实例 用 230 个 变量 进行 描述 。 数 据 集 有 
50 000 行 数据 ， 每 行 对 应 于 一 个 客户 ， 以 及 3 个 二 元 结果 (binary outcomes )， 其 中 每 一 个 对 应 于 3 
个 挑战 项 (追加 销售 、 流 失 、 购 买 欲 ) 之 一 。 


为 了 给 大 家 一 个 更 清晰 的 认识 ， 表 4-1 描 述 了 数据 集 的 构成 。 




















表 4-1 ”数据 集 构成 





230 个 数值 与 名 义 属 性 3 小 二 元 类 
Var85 Var123 Var125 Var126 Var132 Var133 Var134 Var225 Var229 Var230| 流失 标签 购买 欲 标签 
12 6 720 8 0 1212385 69134 -1 -1 -1 
站 a 0 8 4136430 357038 1 -1 -1 
58 114 5967 28 0 3478905 248932 kG3k am7c -1 -1 -1 
0 0 0 14 0 0 0 -1 -1 -1 
0 0 15111 58 0 150650 66046 kG3k mj86 -1 “1 -1 
10 0 1935 8 641020 43684 am7c -1 -1 -1 
16 24 13194 24 0 1664450 104978 kG3k am7c -1 -1 -1 
2 12 0 8 8 3839825 1284128 -1 -1 -1 
2 90 2754 0 3830510 203586 kG3k am7c -1 -1 -1 
24 66 6561 32 2577245 210014 kG3k -1 -1 -1 
6 垃 5823 58 0 0 7134 kG3k mj86 -1 -1 -1 
28 24 66825 52 8 134105 15166 kG3k -1 -1 -1 
0 0 44154 10 0 0 0 mj86 -1 “1 -1 
22 54 5202 0 2772010 1095062 xG3x -1 -1 -1 
0 102 31104 8 0 2170355 57596 -1 -1 1 
0 0 2574 0 0 0 ELof ojmt -1 -1 -1 
14 186 8019 48 3571845 587392 kG3k am7c -1 -1 -1 
0 30 5319 8 500295 31436 am7c -1 -1 -1 
2 0 13788 4 0 918350 0 kG3k -1 -1 -1 
14 0 7110 0 2055150 392138 1 -1 -1 
8 66 0 8 0 3258940 1121306 -1 -1 -1 
0 18 0 10 0 0 0 -1 -1 -1 
12 0 531 36 0 491345 56742 ELof mj86 -1 -1 -1 
0 12 16803 I 0 201110 1693090 1 -1 -1 
14 0 25740 0 2932660 313200 xG3x -1 -1 1 








上 表 中 列 出 了 前 25 个 客户 实例 ， 每 个 实例 使 用 230 个 属性 进行 描述 ， 表 格 只 选取 了 其 中 10 个 
属性 进行 展示 。 数 据 集 包含 许多 缺失 值 ， 有 些 属性 甚至 是 空 值 或 常数 。 表 格 中 的 最 后 3 列 对 应 于 3 
个 不 同 的 类 标签 ， 用 于 表明 客户 是 否 真 的 更 换 了 供应 商 ( 流失 )、 购 买 了 一 项 服务 ( 购买 和 欲 ), 或 
改 了 购买 升级 (追加 销售 ) 请 注意 ，3 个 不 同文 件 中 , 标签 与 数据 是 分 开 提供 的 ， 所 以 有 必要 把 
实例 顺序 与 类 标签 恰当 地 对 应 起 来 。 



































4.1.3 评估 
针对 三 个 任务 〈 流 失 、 购 买 欲 、 追 加 销售 )， 根 据 ROC 曲 线 下 面 区 域 面积 的 算术 平均 值 对 提 
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交 的 方案 进行 评 佑 。ROC 曲 线 使 用 一 条 曲线 表示 模型 性 能 ,这 条 曲线 是 通过 为 各 种 闷 值 ( 确定 分 
类 结果 ) 描绘 敏感 性 与 特异 性 而 得 到 的 ( 请 参考 第 1 章 中 有 关 ROC 昌 线 的 内 容 )。AUC 指 ROC 曲 
线 下 面 区 域 的 面积 , 面积 越 大 , 分 类 需 越 好 。 包含 Weka 在 内 的 大 多 数 工 具 箱 都 提供 用 于 计算 AUC 
分 数 的 API。 











4.2 最 基本 的 朴素 贝 叶 斯 分 类 器 基准 


按照 挑战 规则 , 参与 者 必须 胜 过 最 基本 的 朴素 贝 叶 斯 分 类 器 才 有 资格 获奖 。 朴 素 贝 叶 斯 分 类 
带 基于 一 个 简单 的 假设 : 属性 之 间 相 互 独立 ( 参见 第 1 章 相 关内 容 )。 


KDD Cup 组 织 者 运行 朴素 贝 叶 斯 分 类 器 , 不 选择 任何 特征 或 对 超 参 数 做 调整 。 对 于 大 型 数据 
攻 ， 朴 素 贝 叶 斯 分 类 天 在 测试 集 上 的 综合 分 数 如 下 : 


口 客户 流失 问题 AUC = 0.6468 
口 购买 欲 问 题 AUC = 0.6453 
口 追加 销售 问题 : AUC=0.7211 


请 注意 ,基准 结果 只 针对 大 型 数据 集 。 而 且 , KDD Cup 网 站 上 都 提供 了 训练 数据 集 与 测试 数 
据 集 ， 但 并 没有 提供 测试 集 的 真实 标签 。 因 此 ， 使 用 我 们 自己 的 模型 处 理 数 据 时 ， 无 法 得 知 模型 
在 测试 集 上 的 工作 效果 。 我 们 只 能 使 用 训练 数据 ， 并 使 用 交叉 验证 评估 模型 。 最 终 得 到 的 结果 可 
能 没有 直接 可 比 性 ， 但 可 以 借 此 了 解 AUC 分 数 的 合理 大 小 。 



















































































4.2.1 获取 数据 


在 KDD Cup 网 页 ( http://kdd.org/kdd-cup/view/kdd-cup-2009/Data ) 中 ， 你 应 该 能 够 看 到 图 4-1 
所 示 的 数据 页 面 。 首 先 ， 从 Small version (230 var) 部 分 下 载 orange Small _ train.data,zip。 
接着 ， 下 载 与 该 训练 数据 相关 的 3 组 真实 标签 。 在 Real binary targets (smalD) 部 分 ， 你 会 看 到 如 下 
文件 : 


Dorange small train appentency.|labels 
Dorange _ small train churn.|labels 
Dorange small train upselling.|labels 


保存 并 解压 缩 图 4-1 框 中 的 所 有 文件 。 
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9 ， 门 Sokbo:koocup2005 > 


CC kdd.org/xdd-cup/view/kdd-cup-2009/Data 


Taskes ~ Fules Data Resuts FAQ Contacts 
SE 


Data 
KDD Cup 2009: Customer relationship prediction 


Training and test data matrices and practice target values 


The large dataset archives are available since the onset of the chalienge. The small dataset will be made 
available at the end of the fast challenge. Both training and test sets contain 50,000 examples. The data are 
30 similarty for the small and large versions, but the samples sare cfdered differently within the training and 
within the test sets. Both small and iarge datasers have numarical and cateqorical varinbles. For the large 


dataset, the first 14,740 variables are numerical and the last 260 are categorical For the 





first 190 variables are numerical and the last 40 are categorical Toy target values are available only for 


practioe purpose The prediction of the toy target values will not be part of the final evaluation 








Large version (15000 var 





人 
和 
ER 
加 





les) 
(52.6 Mbytes) 


Toy targets (large) 


True task labels 


Real binary targets (small} 
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Data Download 
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First user 























图 4-1 KDD Cup 数 据 页 面 

















接 下 来 的 部 分 中 ， 首 先 将 数据 加 载 到 Weka， 使 用 朴素 贝 叶 斯 方法 建立 基本 模型 ， 获 得 我 们 
自己 的 基准 AUC 分 数 。 然 后 学 习 更 多 关于 高 级 建 模 技术 与 技巧 的 内 容 。 





4.2.2 ”加 载 数 据 











中 的 空 属性 。 


public static lnstances loadData(String pathData, String 
pathLabeles) throws Exception { 


? ly 


首先 ， 使 用 CSVLoader 类 加 载 数 据 。 并 且 ， 指 定 \t 为 字段 分 隔 符 ,将 最 后 40 个 








调 





性 强 


直接 将 . cvs 格式 的 数据 加 载 到 Weka。 为 此 ， 编 写 一 个 加 载 数据 的 函数 ， 它 拥有 两 个 参数 ， 


分 别 用 于 接收 数据 文件 路 径 与 真实 标签 文件 路 径 。 这 个 函数 将 加 载 并 合并 数据 集 , 并 且 移 走 数据 


押解 
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析 为 Nominal 类 型 。 


11 加 载 数据 

CSVLoader loader = new CSVLoader!(); 
loader.setFieldSeparator("\t"); 
loader.setNominal Attributes("191-1ast"); 
loader.setSource(new File(pathData)); 
Instances data = |oader.getDataSet(); 


CSVLoader 类 还 可 以 接收 许多 其 他 参数 ， 用 于 指定 列 分 隔 符 、 字 符 串 闭 包 ， 
以 及 是 否 有 标题 行 等 。 有 关 CSVLoader 类 的 完整 文档 ， 可 以 在 如 下 网 址 找到 : 


http://weka.sourceforge.net/doc.dev/weka/core/converters/CSVLoader.html 














接 下 来 ,一 些 属性 不 包含 单个 值 ，Weka 自 动 将 其 识别 为 5tri ng 属性。 其 实 我 们 并 不 需要 它 
们 ， 所 以 可 以 使 用 Re moveType 过滤 带 将 其 安全 捆 除 。 男 外 ,我 们 指定 了 - T 参 数 ， 它 表示 移 走 特 
定 类 型 的 属性 与 我 们 想 移 除 的 属性 类 型 。 


1 将 识别 为 St ri ng 属性 的 空 属性 移 走 

RemoveType removeString = new RemoveTypel( ) 
removeString.setOptions(new String[]{"-T", "string"}); 
removeString.setlnputFormat(data); 

nstances filteredData = Filter.useFilter(data, removeString),; 


























或 者 也 可 以 使 用 | nstances 类 中 的 void deleteStringAttributes() 方 法 进行 同样 的 移 
除 工 作 ， 比 如 data, del eteStringAttributes()。 


接 下 来 ， 加 载 类 标签 (class labels )， 并 将 其 指派 给 数据 。 为 此 ， 要 再 次 利用 CV5L0ader 类 ， 
并 且 指 定 文件 不 带 有 任何 标题 行 ， 即 Set NoHeaderRowPpresent (true)。 

/1 加载 标签 

oader = new CSVLoader(); 

oader.setFieldSeparator("\t"); 

oader.setNoHeaderRowPresent(true),; 

oader.setNomi nal Attributes("first-last"); 


oader.setSource(new File(pathLabeles)),; 
nstances labels = |oader. getDataSet(); 


加 载 好 两 个 文件 后 ， 可 以 调用 | nstances., mergelnstances (lnstances, lnstances) 
静态 方法 将 其 合并 。 该 方法 会 返回 一 个 新 的 数据 集 , 里 面包 含 来 自 第 一 个 数据 集 与 第 二 个 数据 集 
的 所 有 属性 。 请 注意 ， 两 个 数据 集中 的 实例 个 数 必须 一 样 。 


1 1 将 标签 添加 为 类 值 
Instances labeledData = Ilnstances.mergelnstances(filteredData, labeles); 


设置 最 后 一 个 属性 ， 它 是 我 们 刚刚 添加 的 标签 属性 ， 用 作 目 标 变量 ， 然 后 返回 最 终 数据 集 。 


11 将 标签 属性 设置 为 类 别 
label edData.setClasslndex(|label edData.numAttributes() - 1); 
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System.out.println(labeledData.toSummaryString()); 
return labeledData; 
} 


最 终 函 数 输出 结果 如 下 ， 返回 带 标签 的 数据 集 : 


Relation Name: orange small train,.data-weka.filters.unsupervised,.attribute, 
RemoveType-Tstring _ orange small train churn.labels.txt 

Num lnstances: 50000 

Num Attributes: 215 





Name Type Nom lnt Real Missing Unique Dist 
1 Varl Num 0% 1% 0% 49298 / 99% 8 1 0% 18 
2 Var2 Num 0% 2% 0% 48759 / 98% 1/ 0% 2 
3 Var3 Num 0% 2% 0% 48760 / 98% 104 / 0% 146 
4 Var4 Num 0% 3% 0% 48421 / 97% 1/1 0% 4 


4.3 基准 模型 


这 一 部 分 将 使 用 KDD Cup 组 织 者 采用 的 方法 , 实现 我 们 自己 的 基准 模型 。 但 开始 创建 模型 之 
前 ， 先 实现 评估 引擎， 它 会 返回 3 个 问题 的 AUC。 

















4.3.1 评估 模型 
下 面 详 细 了 解 评 价 函 数 。 评 价 函数 接收 一 个 初始 化 的 模型 ， 对 3 个 问题 的 模型 进行 交叉 验证 ， 
并 返回 结果 。 该 结果 是 AUC， 如 下 : 


public static double[] evaluate(Classifier model) 
throws Exception { 
































double results[] = new doublel4 


String[] 1abelFiles = new String[]{ 
"churn", "appetency", "upselling"}; 


double overallScore = 0.0; 
for (int i = 0; i < labelFiles.|length; i++) { 


首先 调用 | nstance 1oadDatalString，String) 函数 ， 该 函数 在 前 面 已 经 实现 ， 用 于 加 
载 训练 数据 ， 并 合并 训练 数据 与 所 选 标签 。 


1 1/ 加 载 数据 

Instances train data = |0adDatal 
path + "orange small train,data" 
path+"orange_small train_ "+labelFiles[i]+".labels.txt"); 
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接 下 来 ， 初 始 化 weka. cl assifiers,.Evaluation 类 ， 并 传人 我 们 的 数据 集 (该 数据 集 只 
提取 数据 属性 而 不 考虑 实际 数据 )。 然 后 调用 void crossValidateModel (Classifier, 
lnstances,，int，Random) 方 法， 开始 交叉 验证 ， 选 择 并 生成 5 个 折 (five folds )。 由 于 验证 基 
于 数据 的 随机 子 集 进行 ， 所 以 也 需要 我 们 传人 一 个 随机 种 子 。 


11 对 数据 做 交叉 验证 

Eval uation eval = new Evaluation(train data); 
eval .crossValidateModel (model, train data, 5, 
new Random( 1)); 


评估 完成 后 ,调用 double areUnderROC(int) 方 法 读 取 结果 。 由 于 度量 依赖 于 我 们 感 兴 趣 
的 目标 值 ， 所 以 该 方法 需要 一 个 类 值 索 引 ， 通 过 在 类 属性 中 搜索 值 1 的 索引 即 可 提取 。 


1 1 保存 结果 
results[i] = eval.areaUnderRoCl 

train data.classAttribute().indexOf Val ue("1")); 
overallScore += results[i]; 


} 
最 后 ， 求 结果 的 平均 值 并 返回 。 


1 1 获得 3 个 问题 的 平均 结果 
results[3] = 0verall9core / 3; 
return results; 


} 












































4.3.2 ”实现 朴素 贝 叶 斯 基准 线 


拥有 所 有 材料 后 ， 可 以 实现 朴素 贝 叶 斯 方法 , 它 是 我 们 希望 超越 的 目标 。 这 个 方法 不 会 包含 
其 他 任何 数据 预 处 理 、 属 性 选择 、 模 型 选择 。 由 于 我 们 没有 测试 数据 的 实际 标签 ， 所 以 使 用 $ 折 
交叉 验证 (five-fold cross validation ) 在 小 数据 集 上 评估 模型 。 

首先 ， 初 始 化 朴素 贝 叶 斯 分 类 器 ， 如 下 : 

Classifier baselineNB = new NaiveBayes(); 

接着 , 将 分 类 器 传 给 评价 函数 ,评估 函数 加 载 数据 与 应 用 交 又 验证 , 并 且 为 3 个 问题 返回 AUC 
分 数 以 及 总 体 结果 : 


























double resNB[] = evaluate(baselineNB); 
System.out.println("Naive Bayes\n" + 
"\tchurn: " +resNB[0] + "\n" + 
"\tappetency: " + resNB[1] + "\n" + 
"\tup-sell: " + resNB[2] + "\n" + 
"\toverall: " + resNB[3] + "\n"); 


我 们 的 示例 中 ， 模 型 返回 的 结果 如 下 : 
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Naive Bayes 
churn: 0.5897891153549814 
appetency: 0.630778394752436 
up- sell: 0.6686116692438094 
overall: 0.6297263931170756 


我 们 使 用 更 先进 的 模型 迎接 挑战 时 ， 上 面 这 些 结果 用 作 基 准 线 。 如 果 使 用 更 高 级 、 更 耗 时 与 
更 复杂 的 技术 处 理 数据 ， 就 能 得 到 更 好 的 结果 ,否则 只 是 在 浪费 资源 。 一 般 来 说 ,解决 机 需 学 习 
问题 时 ， 创 建 一 个 简单 的 基准 分 类 器 用 作 定 位 点 总 是 个 不 错 的 主意 。 











4.4 使 用 集成 方法 进行 高 级 建 模 


前 面 实 现 了 一 个 定位 基准 , 接 下 来 让 我 们 把 关注 点 放 在 “重型 机 械 ” 上 ,我 们 将 采用 KDD Cup 
2009 获 奖 方案 ( 由 IBM Research 团 队 开 发 ，Niculescu-Mizil 等 ，2009 ) 使 用 的 方法 。 




















应 对 挑战 过 程 中 , IBM Research 团 队 使 用 的 是 集成 选择 ( Ensemble Selection ) 算法 ( Caruana 
与 Niculescu-Mizil，2004 )。 它 是 一 个 集成 方法 ， 创 建 了 一 系列 模型 ， 并 且 按 照 特定 方式 将 其 输出 
组 合 在 一 起 ， 形 成 最 终 分 类 结果 。 这 个 方法 拥有 几 个 优点 ， 使 得 它 非 常 适用 于 此 次 挑战 。 


口 这 个 方法 非常 健壮 ， 并 且 拥 有 良好 性 能 ， 这 些 优 点 已 经 得 到 证 实 。 
口 它 可 以 针对 特定 性 能 指标 做 优化 ,包括 AUC。 

口 它 允 许 将 不 同 分 类 器 添加 到 库 。 

口 它 是 一 个 任何 时 候 都 适用 的 方法 ， 这 意味 着 ， 如 果 我 们 用 完了 时 间 ， 仍 有 解决 方案 可 用 。 


本 节 大 致 根据 他 们 在 汇报 中 描述 的 步骤 进行 。 请 注意 ,我们 并 非 要 准确 实现 他 们 的 方法 ， 而 
只 实现 方案 的 大 概 ， 包括 必 需 的 深入 步 又 。 

步 又 概述 如 下 : 

(1) 首先 ， 对 数据 做 预 处 理 ， 剔 除 没有 价值 的 属性 ， 比 如 所 有 缺失 值 与 常数 值 。 修 复 缺 失 值 
以 帮助 机 顺 学 习 算 法 对 其 进行 处 理 ， 将 分 类 属性 转换 为 数值 ; 

(2) 接着 ， 运 行 属性 选择 算法 ， 选 择 属性 的 一 个 子 集 ， 用 在 任务 预测 中 ; 

(3) 第 三 步 ， 使 用 多 种 模型 将 集成 选择 算法 实例 化 ， 最 后 评估 其 性 能 。 






























































4.4.1 开始 之 前 


这 个 任务 中 ， 我 们 需要 用 到 另外 一 个 Weka 包 一 ensembl eLibrary。Weka 3.7.2 或 更 高 版 
本 支持 大 部 分 学 术 社 区 开发 的 外 部 包 。http://weka.sourceforge.net/packageMetaData 页 面 列 出 了 可 
用 的 WEKA 包 ， 如 图 4-2 所 示 。 
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© © ， 必 waikato Environmentfork x Firstuser | 
€ CG DD weka.sourceforge.net/packageMetaData/ 克 @ 园 羡 三 
The University h 
区 of Waikato © Penta OO 
WEKA Packages 
IMPORTANT: make sure there are no old versions of Weka (<3.7.2) in your CLASSPATH before starting Weka 
Installation of Packages 


A GUI package manager is available from the "Tools" menu of the GUIChooser 
java -jar weka.jar 


For a command line package manager type: 
java weka.core.WekaPackageManager -h 


Running packaged algorithms from the command line 


java weka.Run [algorithm name] 





Substring matching is also supported. E.g. try: 


java weka.Run Bayes 


Available Packages (151) 








AnDE Classification Averaged N-Dependence Estimators (includes A1DE and A2DE) 

ArabicStemmers LightStemmers Preprocessing Arabic Stemmer / Light Stemmer 

CAAR Regression, Ensemble Context Aware Case-Based Regression Learner 

learning 

CHIRP Classification CHIRP: A new classifier based on Composite Hypercubes on 
TIterated Random Projections 

CLOPE Clustering CLOPE: a fast and effective clustering algorithm for transactional 
data 

CVAttributeF . 3 dai Re f attril 























图 4-2 ”可 用 的 WEKA 包 





在 http://prdownloads.sourceforge.net/weka/ensembleLibrary1.0.5.zip?download 页 面 找 到 并 下 载 
最 新 版 本 的 ensemb| eLibrary 包 。 


对 ensembl eLibrary 包 进 行 解压 缩 后 ， 找 到 ensemb|l eLibrary.jar 文件 ， 并 将 其 导入 你 
的 代码 ， 如 下 所 示 : 


import weka.classifiers.meta.Ensembl eSelection; 


4.4.2 ”数据 预 处 理 


首先 ， 使 用 Weka 内 置 的 weka,filters,unsupervised,attribute,RemoveuUseless 过 
滤器 移 除 无 用 属性 。 借 助 该 过 滤器 , 可 以 从 数据 中 移 除 那些 变化 不 大 的 属性 , 比如 所 有 常量 属性 ， 
并 且 移 除 那 些 变化 太 过 剧烈 (变化 接近 随机 ) 的 属性 。 可 以 通过 - M 参 数 指 定 最 大 方差 ( maximum 
variance )， 它 只 应 用 于 名 义 属 性 (nominal attributes )。 其 默认 值 是 99% ， 这 意味 着 ， 对 于 某 个 属 
性 ， 如 果 超 过 99% 的 实例 拥有 唯一 的 属性 值 ， 那 么 该 属性 就 会 被 移 除 ， 如 下 所 示 : 


RemoveUseless removeUseless = new RemoveUseless(); 
removeUseless.setOptions(new String[] { "-M", "99" });// 阅 值 
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fremoveUseless,SetlnputFormat(datal)， 
data = Filter.useFilter(data, removeUseless); 














接 下 来 ， 通 过 weka，filters,unsupervised,attribute,ReplaceMssingvalues 过 
滤器 使 用 从 训练 数据 得 到 的 众 数 (名 义 属 性 ) 与 平均 数 ( 数值 属性 )， 以 此 代替 数据 集中 的 所 有 
缺失 值 。 一 般 来 说 , 对 缺失 值 做 蔡 换 处 理 时 要 多 加 小 心 , 同时 也 要 考虑 属性 的 含义 与 上 下 文 环境 。 

ReplaceMissingValues fixMissing = new ReplaceMssingvalues()， 


fixMissing.setlnputFormat (data); 
data = Filter.useFilter(data, fixMissing),; 


最 后 , 对 数值 型 属性 做 离散 化 处 理 , 也 就 是 使 用 weka.filters.unsupervised.attribute. 
Discretize 过 滤 需 将 数值 型 属性 变换 为 区 间 (intervals )。 使 用 -6 选项 ， 将 数值 型 属性 划分 为 4 
个 区 间 ， 使 用 - R 选 项 指定 属性 范围 ( 只 有 数值 型 属性 会 被 离散 化 ): 


Discretize discretizeNumeric = new Discretizel(); 
discretizeNumeric.setOptions(new String[] { 
"-B"， "4"， // 区 间 数 
"-R"， "first-last"}); // 属性 范围 
fixMissing.setlnputFormat (data); 
data = Filter.useFilter(data, fixMissing),; 

































































4.4.3 ”属性 选择 


下 面 只 选择 包含 有 用 信息 的 属性 ,也 就 是 说 ,选择 那些 可 能 对 预测 更 有 帮助 的 属性 。 这 个 问 
题 的 标准 做 法 是 ， 检 查 每 个 属性 包含 的 信息 增益 。 我 们 将 使 用 weka,attributeSelection， 
AttributeSelection 过 滤器 进行 属性 选择 ， 它 需要 另外 两 个 方法 : 一 个 是 评估 器 ， 指 出 如 何 
计算 属性 的 有 用 性 ; 另 一 个 是 搜索 算法 ， 指 出 如 何 选择 属性 子 集 。 

我 们 的 示例 中 ， 先 初始 化 weka,attributeSselection, lnfocainAttributeEval ， 它 实 
现 了 对 信息 增益 的 计算 。 


|nfoGainAttributeEval eval = new |nfooainAttributeEval()， 
Ranker search = new Rankerl()， 


为 了 从 高 于 某 个 立 值 的 属性 中 只 选择 顶级 属性 ， 初 始 化 weka. attributeSelection. 
Ranker ， 对 高 于 特定 冰 值 上 且 带 有 信息 增益 的 属性 进行 排列 。 使 用 . T 参数 进行 指定 ， 同 时 保持 低 
闵 值 ， 让 属性 至 少 带 有 一 些 信息 。 


search.setOptions(new String[] { "-T", "0.001" }); 




































































nl 














>» 设置 阅 值 的 一 般 规则 是 , 根据 信息 增益 对 属性 进行 排序 , 然后 选择 信息 增益 
el 降 到 微不足道 时 的 阅 值 。 


接 下 来 ,初始 化 AttributeSelection 类 , 设置 评估 器 (evaluator ) 与 排行 器 (ranker )， 并 
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且 向 数据 集 应 用 属性 选择 。 


Attribute9election att9elect = new AttributeSelection(); 
attSelect.setEval uator(eval); 
attSelect.setSearch(search); 








11 应 用 属性 选择 
attSelect.SelectAttributes(data); 


最 后 , 调用 reduceDi mensionality(1nstances) 方 法 , 移 除 上 次 运行 未 被 选中 的 那些 属性 。 


11 移 除 上 次 运行 未 被 选中 的 属性 
data = attSelect.reduceDi mensionality(data); 


最 终 ， 从 230 个 属性 中 保留 了 214 个 属性 。 




















4.4.4 模型 选择 


多 年 来 ,活跃 在 机 器 学 习 领 域 的 实践 者 们 开发 了 各 种 各 样 的 学 习 算 法 , 并 对 一 些 现 有 算法 做 
了 大 量 改 进 。 独 特 的 监督 学 习 方法 数量 众多 ,很 难 全 部 记录 。 由 于 数据 集 的 特征 各 不 相同 ， 所 以 
不 可 能 有 适用 于 所 有 情况 的 通用 方法 。 不 同 算法 可 以 利用 一 个 给 定数 据 集 的 不 同 特征 与 关系 。 集 
成 选择 算法 的 特征 就 是 尝试 充分 利用 各 种 算法 分 析 数 据 集 (Jung，2005 )。 


直观 地 说 , 集成 选择 算法 的 目标 是 自动 检测 并 组 合 这 些 独特 算法 的 力量 , 使 整体 效 
果 好 于 其 中 任何 一 个 。 这 通过 创建 一 个 库 来 实现 , 其 目的 是 尽 可 能 多 地 利用 这 些 不 同 的 
学 习 方 法 。 这 种 过 量 生成 大 量 模型 的 范式 与 传统 的 集成 方法 有 很 大 不 同 。 到 目前 为 止 ， 
我 们 的 结果 非常 鼓 帮 人 心 。 














首先 需要 创建 模型 库 。 通 过 初始 化 weka,classifiers，EnsembleLibrary 类 实现 ， 这 个 
类 会 帮助 我 们 定义 模型 。 


Ensembl eLibrary ensemblelib = new Ensembl eLibrary(); 


接着 , 使 用 字符 串 向 库 添加 模型 及 参数 。 比 如 使 用 不 同 参数 向 库 添加 两 个 决策 树 学 习 器 ， 代 
人 码 如 下 : 


ensembl eLib.addModel ("weka.classifiers.trees.)j48 -9 -C 0.25 -B -M 














PR 
ensembl eLib.addModel ("weka.classifiers.trees.)j48 -9 -C 0.25 -B -M 
2 -A"); 








如 果 熟 悉 Weka 图 形 界面 , 你 也 可 以 用 它 找 到 这 两 个 算法 及 其 配置 , 然后 复制 算法 配置 : 在 
算法 名 称 上 点 击 鼠 标 右键 ， 依 次 选择 Edit configuration>Copy configuration string ， 如 图 4-3 
所 示 。 
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@©Oe@e Weka Explorer 
| Preprocess Cluster | Associate Select attributes | Visualize | 
Classifier 
有 = 本 = 加 ] 
|_Choose | ILogitBoost -P 100 -L -1,.7976931348623157E308 -H 1.0 -Z3.0-DO1-E1-351-|10-Wwekaclassifiers,trees,Decisionstul 
- Show properties... EF 
ns Copy configuration to clipboard 
_) Use training set Enter configuration... | 
_) Supplied test set >et.- 虽 Edit configuration.. imeta.LogitBoost -P 100 -L -1.7976931348623157E308 -H 
i In.data-weka. filters.unsupervised.attribute.RemoveType 
图 cross-validation Folds |5 History ER 二 > RE 
。 pr Attributes: 39 
_) Percentage split % 166 Var217 
和 Var202 
| More options.… | Var199 
Var214 
Var200 
| (Nom) attl 3 Var198 
Var220 
| Start | Stop Var222 
ee Var216 
Result list (right-click for options) Var192 
.3 1 Var126 
21:33:45 - meta.LogitBoost Var73 
21:34:31 - meta.LogitBoost Var212 
21:36:29 - meta.LogitBoost Var74 
21:40:51 - meta.LogitBoost Var228 
Var13 
Var197 
Var193 
Var206 
图 4-3 ”Weka 算 法 配置 页 面 
、 2 Db 六 小 
为 了 完成 示例 ， 继 续 添 加 如 下 算法 及 其 参数 。 











口 朴素 贝 叶 斯 算法 ， 用 作 默 认 基 准 : 


ensembleLib.addModel ("weka.classifiers.bayes. NaiveBayes"); 


口 基于 懒惰 模型 (lazy models ) 的 k 最 近邻 算法 : 
ensembl elLib.addModel ("weka.classifiers.|lazy.|lBk"); 


口 逻辑 回归 ， 用 作 简 单 逻辑 ， 带 有 默认 参数 : 


ensembleLib.addModel ("weka.classifiers.functions.SimpleLogi stic"),; 








ensembleLib.addModel ("weka.classifiers.functions. SMO"), 


口 AdaBoost， 本 身 就 是 集成 方法 : 


ensembleLib,.addModel("weka. Classifiers,meta,AdaBoostM1l")， 














ensembleLib.addModel ("weka.classifiers.meta.LogitBoost"),; 


口 决策 树桩 ( Decision stump )， 基 于 单 层 决策 树 的 集成 方法 : 
ensembleLib.addModel ("classifiers.trees.DecisionStump"); 
由 于 Ensembl eLibrary 的 实现 主要 针对 GUI 与 控制 台 用 户 ， 所 以 必须 调用 saveli brary 
(File,Ensembl eLibrary，j Component) 方 法 将 模型 存储 到 一 个 文件 ， 代 码 如 下 : 
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Ensembl eLibrary.savelibrary(new 

File(path+"ensembleLib,model.xml"), ensembleLib, null}); 
System.out.println(ensembleLib.getModels()); 
接着 实例 化 weka. classifiers.meta.Ensemb|l eSelection 类 ， 对 集成 选择 算法 进行 初 
始 化 。 先 了 解 方法 的 各 个 选项 ， 如 下 所 示 。 


口 -L </path/to/modelLibrary>: 指定 modelLibrary 文 件 ， 延 伸 所 有 模型 列表 。 
口 -W </path/to/working/directory>: 指定 存储 所 有 模型 的 工作 目录 。 

口 -B <numModel Bags>: 设置 包 (bag ) 数 上 日 ， 即 执行 集成 选择 算法 的 迭代 次 数 。 

口 -E <model Ratio>: 设置 库 中 模型 的 比例 , 这 些 模 型 会 被 随机 选择 迁移 到 模型 的 每 个 包 。 
口 -V <validationRatio>: 设置 保留 用 于 验证 的 训练 数据 集 的 比例 。 
口 
口 


























-H <hillClimblterations>: 设置 每 个 模型 包 上 要 执行 的 仆 山 迭代 次 数 。 

-| <sortlnitialization>: 设置 集成 库 的 比例 ， 分 类 初始 化 算法 将 从 该 集成 库 选 出 ， 
同时 为 每 个 模型 包 初始 化 集成 方法 。 

口 -X <numFolds>: 设置 交叉 验证 的 折 数 。 

口 -P <hillclimbMettric>: 指定 仆 山 算法 期 间 用 作 模 型 选择 的 指标 ， 有 效 指标 有 
accuracy、rmse、roc、precision、recall、fscore 等 。 

口 -A <algorithm>: 指定 集成 选择 使 用 的 算法 ， 有 效 算法 有 forward ( 默认 ,前 进 选择 法 )、 
backward (后退 消去 法 )、both ( 前 进 与 后 退 消 去 法 )、best ( 简单 打印 集成 库 中 的 顶部 执 
行者 )、library( 只 训练 集成 库 中 的 模型 )。 

-R : 该 标记 指示 集成 方法 可 否 多 次 选择 模型 。 

- 6: 该 项 指定 性 能 降低 时 分 类 初始 化 是 否 停止 添加 模型 。 

- 0: 该 选项 用 于 详细 输出 。 打 印 所 有 选中 的 模型 性 能 。 

- S<num>; 设置 随机 数 种 子 值 (默认 1 )。 

-D : 开启 该 选项 后 ， 分 类 器 将 在 调试 模式 下 运行 ， 并 可 能 向 控制 台 输 出 额外 信息 。 


使 用 如 下 初始 参数 对 算法 进行 初始 化 ， 并 指定 优化 ROC 指 标 : 


Ensembl eSel ection ensamble9el = new EnsembleSelection(); 
ensambl eSel .set Options(new String[]{ 
"-L"，path+"ensembleLib.model .xml"，// 模型 库 路 径 
"-W"，path+"esTmp"，// 工作 目录 路 径 
"-B"，"10"，// 模型 包 数 
"-E"，"1.0"，// 模型 比率 . 
"-V"，"0.25"，// 验证 比率 
"-H"，"100"，// 根山 选 代 次 数 
"1"，"1.0"，// 分 类 初始 化 
l "2"，/1 折 数 
"Toc"， /1 根山 指标 
"forward"，// 算法 
"true"，// 允许 多 次 选择 
"true"，// 性 能 下 降 时 停止 添加 模型 
"true"，// 输出 详细 信息 ， 
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"9 ， Ee 1 随机 数 种 子 ， 
"-D"，"true”// 在 调试 模型 下 运行 


4.4.5 ”性 能 评估 


做 性 能 评估 要 耗费 计算 机 大 量 计 算 力 与 内 存 ， 因 此 要 保证 使 用 额外 的 堆 空间 (比如 
java-Xmx16g ) 对 JVM 做 初始 化 。 即 便 如 此 ， 整 个 计算 可 能 也 要 耗费 几 小 时 或 者 几 天 ， 具 体 取决 
于 添加 到 模型 库 的 算法 数量 。 我 们 的 示例 将 耗费 4 小 时 22 分 ( 12-core Intel Xeon E5-2420 CPU ， 
32 GB 内 存 )， 平 均 需 要 占用 10% CPU 与 6 GB 内 存 。 


调用 评 佑 方法 ， 输 出 如 下 结果 : 



























































double resES[] = evaluate(ensamble9el)， 
System.out.println("Ensemble 9electionvn" 
+ "\tchurn: ”+ TesE9[0] + "\n" 
+ "\tappetency: " + resES[1] + no 
+ "\tup-sell: ”+ TesE9[2] + "\n’" 
+ "\toverall: ”+ TesE9[3] + "\n"); 
模型 库 中 的 一 组 特定 分 类 器 得 到 如 下 结果 : 
Ensamb|e 
churn: 0.7109874158176481 
appetency: 0.786325687118347 
up- sell: 0.,8521363243575182 
overall: 0.7831498090978378 


总 体 来 说 ， 相 比 于 本 章 开 始 时 我 们 设计 的 初始 参考 基准 ， 这 个 方法 带 来 了 明显 的 性 能 提升 ， 
提升 幅度 超过 15 个 百分点 。 然 而 很 难 据 此 得 出 一 个 确切 的 结论 ， 因 为 性 能 提升 主要 由 3 个 因素 引 
起 : 数据 预 处 理 与 属性 选择 、 多 种 学 习 方 法 的 探索 以 及 集成 创建 技术 ( 该 技术 可 以 充分 利用 各 种 
基本 分 类 器 而 不 会 过 度 拟 合 ) 的 应 用 。 然 而 ,性 能 提升 意味 着 处 理 时 间 有 明显 增加 ， 占 用 的 内 存 
也 会 增加 。 

















4.5 小 结 


本 章 尝试 解决 了 KDD Cup 2009 挑 战 赛 中 提出 的 问题 ， 即 预测 客户 关系 。 解 决 问题 的 过 程 中 ， 
我 们 按照 数据 预 处 理 步骤 对 数据 做 了 预 处 理 , 处 理 了 缺失 值 与 多 余 属性 。 解决 问 题 时 , 我 们 借用 
了 KDD Cup 挑 战 赛 中 获胜 的 解决 方案 , 研究 了 如 何 使 用 各 种 学 习 算法 应 用 集成 方法 , 从 而 让 分 类 
性 能 得 到 显著 提升 。 


下 一 章 将 尝试 解决 另外 一 个 问题 ， 即 分 析 顾 客 的 购买 行为 。 这 个 过 程 中 , 我 们 将 学 习 如 何 使 
用 某 些 算法 探查 频繁 出 现 的 行为 模式 。 























天 联 分 析 











关联 分 析 ( Affinity Analysis ) 是 购物 篮 分 析 ( Market basket analysis，MBA ) 的 核心 所 在 。 
通过 关联 分 析 , 可 以 从 特定 用 户 或 群 组 所 做 的 活动 中 发 现 共 现 关系 ( co-occurrence relationships )。 
零售 业 中 , 关联 分 析 能 够 帮助 我 们 理解 顾客 的 购买 行为 。 在 这 些 分 析 结 果 的 帮助 下 , 通过 运用 “ 聪 
明 ” 的 交叉 销售 ( cross-selling ) 与 追加 销售 策略 ( upselling strategies ) 可 以 大 大 提高 商品 销售 额 ， 
而 且 能 帮 你 制订 忠诚 度 计 划 、 商 品 促销 与 打折 销售 计划 。 

本 章 将 学 习 如 下 主题 : 
口 购物 篮 分 析 
口 关联 性 规则 学 习 
口 在 各 种 领域 的 不 同 应 用 

首先 了 解 与 关联 性 规则 学 习 有 关 的 概念 与 算法 , 比如 支持 度 ( support )、 提升 度 (1ift ) Apriori 
算法 、FP- 增 长 算法 。 然 后 使 用 Weka 对 超市 数据 集 做 关联 分 析 ， 人 研究 如 何 解 释 结 果 规 则 。 最 后 分 
析 如 何 将 关联 规则 学 习 应 用 于 其 他 领域 ， 比 如 IT 运营 分 析 、 医 药 等 。 
































5.1 购物 篮 分 析 


随 着 大 量 电 子 销售 点 的 设立 , 零售 商 们 收集 了 数量 惊人 的 数据 。 为 了 充分 利用 这 些 数据 并 使 
其 产生 商业 价值 , 他 们 必须 首先 开发 一 种 方法 合并 这 些 数 据 , 以便 了 解 业 务 的 基本 状况 一 一 他 们 
在 销售 什么 ? 多 少 销售 点 在 运转 ? 销售 量 是 多 少 ? 


近来 , 人 们 将 关注 焦点 转移 到 最 低 粒 度 级 的 购物 篮 交 易 上 。 在 这 个 细节 层次 ,零售 商 可 以 直 
接 查 看 在 他 们 店铺 购物 的 每 位 顾客 的 购物 篮 , 不 仅 可 以 知道 顾客 购买 的 商品 数量 , 还 可 以 了 解 顾 
客 是 如 何 搭配 购买 这 些 商品 的 。 这 些 分 析 结果 可 以 用 于 决定 如 何 区 分 库存 分 类 与 指定 商品 ,以 及 
将 同类 别 或 不 同类 别 的 多 种 商品 有 效 组 合 ， 以 促进 销售 ， 获 取 更 高 利润 。 这 些 决 策 可 以 在 整 条 零 
售 链 上 实现 ,包括 各 种 销售 渠道 、 本 地 店铺 ， 甚 至 针对 某 个 特定 顾客 。 这 称 为 个 性 化 营销 ， 即 针 
对 每 个 顾客 提供 不 同 的 商品 。 
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附近 人 口 结构 





如 何 影响 顾客 购买 什么 ? 


购物 车 问题 


在 这 个 购物 复 中 ， 购 物 者 放 入 了 一 瓶 查 汁 、 一 些 香 革 、 
一 瓶 洗 洁 精 、 一 上 瓶 控 窗 剂 以 及 半 打 汽水 。 










购买 香 营 时 通常 会 买 汽水 吗 ? 
会 不 会 受 汽水 品牌 的 影响 ? 


篮子 里 应 该 有 但 实际 没有 
的 东西 是 什么 ? 


购买 洗 洁 精 与 橙汁 的 同时 
会 买 控 窗 剂 商品 吗 ? 











图 5-1 ”购物 车 问题 


MBA 涵 盖 的 分 析 多 种 多 样 ， 如 下 所 示 。 


口 驱动 商品 的 识别 : 
口 购物 出 行 分 类 : 
况 等 。 








口 商品 关联 : 定义 同时 购买 两 个 或 多 个 商品 的 可 能 性 





启动 那些 驱使 人 们 去 商店 购买 的 商品 识别 ， 这 些 商 品 总 是 需要 有 货 。 
分 析 购 物 篮 中 的 商品 并 对 购物 出 行 分 类 ， 比 如 每 周 购物 出 行 、 特 殊 情 














口 店 到 店 对 比 : 了 解 购物 篮 数 量 ， 人 允许 任何 可 被 购物 篮 总 数 相 除 的 度量 指标 ， 有 效 创 建 一 











用 于 比较 具有 不 同 特征 的 商店 〈 每 个 顾客 销售 量 、 每 个 交易 收益 、 
个 篮子 的 商品 数 等 js 





D 收音 优化 ， 帮 助 确定 让 的 神 坷 价格 (magic price points )， 增 加 风物 外 的 大 小 与 从 人。 
口 营销 : 帮助 找 出 可 以 产生 更 大 利润 的 广告 与 促销 方式 , 更 精准 地 锁定 报价 以 提高 ROI ( 投 
资 回报 率 )， 利 用 纵向 分 析 产 生 更 好 的 会 员 卡 促销 效果 ,吸引 更 多 顾客 进 店 购物 。 


























口 经 营 优化 : 通过 商店 定制 、 贸 易 区 分 类 、 优 化 商店 布局 ， 更 好 地 匹配 顾客 需求 与 库存 。 





预测 模型 有 助 于 零售 商 将 合适 的 商品 推荐 给 相应 的 客户 群体 , 并 帮助 其 了 解 顾客 喜欢 什么 样 
的 商品 ， 预 测 顾客 响应 这 个 购物 提议 的 可 能 性 分 数 ， 了 解 顾客 从 这 个 提议 的 获 益 程度 。 


关联 分 析 








关联 分 析 用 于 确定 顾客 同时 购买 一 组 商品 的 可 能 性 。 零售 业 中 , 商品 之 间 存 在 着 一 些 天 然 的 
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关联 ， 比 如 一 个 很 常见 的 例子 是 : 买 汉 堡 肉 饼 的 人 通常 还 会 一 起 买 汉堡 面包 、 番 茄 酱 、 芥 末 桨 、 
番茄 ， 以 及 其 他 做 汉堡 包 的 原料 。 

有 些 商品 的 关联 看 起 来 可 能 微不足道 , 有 些 关联 则 不 是 很 明显 。 一 个 典型 的 例子 是 牙膏 和 金 
枪 鱼 。 看 起 来 吃 金枪鱼 的 人 吃 完 饭 后 更 倾向 于 立刻 刷牙 。 那么 ,对 于 零售 商 来 说 , 为 什么 把 握 商 
品 之 间 的 关联 显得 如 此 重要 ? 这些 信息 对 于 策划 促销 活动 至 关 重 要 , 对 一 些 商 品 做 降价 促销 可 能 
引起 相关 商品 销售 额 激 增 ， 而 对 于 这 些 相关 商品 则 无 需 专门 再 做 促销 活动 。 


接 下 来 将 学 习 关联 规则 学 习 算 法 : Apriori 算 法 与 FP- 增 长 算法 。 
































5.2 关联 规则 学 习 


关联 规则 学 习 是 一 种 很 流行 的 方法 , 用 于 在 大 型 数据 库 中 发 现 两 个 项 目 之 间 的 有 趣 联系 。 它 
通常 应 用 于 零售 业 ， 揭 示 商 品 之 间 的 关联 规则 。 


关联 规则 学 习 方 法 使 用 不 同 的 兴趣 度 度量 方法 ,以 发 现 数据 库 中 那些 有 趣 的 强 规则 模式 。 比 
如 ， 下 面 规 则 表明 ， 如 采 一 个 顾客 同时 购买 了 洋 获 与 土豆 ， 那 么 他 很 可 能 会 买 汉堡 包 肉 饼 : { 洋 
萄 ,土豆 } 一 {汉堡 包 }。 


另 一 个 典型 的 案例 是 啤酒 与 尿布 的 故事 , 你 可 能 已 经 在 机 器 学 习 有 关 课 程 中 听 过 。 一 项 超市 
顾客 购物 行为 分 析 指出 : 购买 尿布 的 顾客 (大概 是 年 轻 男士 ) 往往 也 会 购买 啤酒 。 这 立刻 成 为 一 
个 流行 的 例子 , 用 来 说 明 如 何 从 每 日 数据 中 找到 意 想 不 到 的 关联 规则 。 然 而 ， 对 于 这 个 故事 的 真 
实 性 ， 人 们 持 有 不 同 看 法 。 和 丹尼尔 鲍 尔 斯 说 (DSS 新 闻 ，2002 ): 


“1992 年 ，Thomas Blischok (天 害 公 司 零 售 业 顾问 团 经 理 ) 和 他 的 团队 成 员 打 算 对 
120 万 个 购物 篮 数据 进行 分 析 ， 这些 数 据 来 自 大 约 25 家 Osco Drug 商 店 。 他 们 对 数据 库 查 
询 做 了 改动 , 使 之 可 以 对 商品 之 间 的 关联 进行 识别 。 分析 结果 指出 : 下 午 5:00~7:00 的 确 
发 现 消费 者 同时 购买 了 啤酒 与 尿布 。 但 Osco 的 经 理 们 没有 利用 啤酒 与 尿布 之 间 的 关系 ， 
并 且 也 没有 把 它们 摆 放 在 一 起 。” 


除了 上 面 这 个 来 自 MBA 的 例子 之 外 ， 现 在 关联 规则 也 被 应 用 于 许多 领域 ,包括 网 络 使 用 挖 
据 、 入 侵 检测 、 连 续 生 产 、 生 物 信息 学 。 本 章 后 半 部 分 将 详细 了 解 这 些 内 容 。 















































5.2.1 基本 概念 
开始 学 习 算法 之 前 ， 先 了 解 基本 概念 。 
1. 交易 数据 库 
关联 规则 挖 扬中， 数据 集 的 结构 与 第 1 章 使 用 的 那些 数据 集 的 结构 略 有 不 同 。 首 先 ， 数 据 集 
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中 没有 类 值 (class value )， 


超市 商品 对 应 于 一 个 二 元 属 





学 习 关联 规则 时 不 需要 它 。 其 次 ,数据 集 表现 为 一 个 交易 表单 ， 每 个 





。 因 此 ， 特 征 向 量 可 能 会 非常 大 。 


请 思考 下 面 这 个 例子 。 假 设 我 们 有 4 张 收据 ， 如 图 5-2 所 示 。 每 个 收据 对 应 于 一 笔 购 物 交易 。 





NWN .MACHINE~LEARNING-JAVA .COM 


6ROCERY STORE 
921 JAVA AVENUE 


NEN YORK 
NY 
eo 
PURCHASE! 
POTATEOS $4.12 
BURGER $12.64 
VAT +11% TAX: $1.77 
TOTAL: $17.93 


PAYMENT METHOD: CREDIT CARD 
TRANSACTION #1456293367 -661 
DRTE41676372616 9429427 AM 


THANK YOU 





NWN .MACHINE-LEARNING-JAVA .COH 


6ROCERY STORE 
921 JAVA AVENUE 


NEN YORK 

NY 

全 人 全 
PURCHASE! 

POTATEOS $4.12 
BURGER $12.84 
ONIONS $3.1 
BEER $27.55 
VAT +1i% ThX 45.15 


TOTAL: #52.88 
PAYMENT METHOD: CREDIT CARO 


TRANGACTION #1456293426 -661 
DhRTE416763/2616 9136426 AM 


THANK Y0U 


MMM .MACHINE~LEARNING-JAVA ,COH 


6ROCERY STORE 
921 JAVA AVENUE 


NEM YORK 

NY 

| 

PURCHASE! 

DIPPERS $29.95 

BEER $27.55 

VAT +ii% TAX! $6.88 
TOTAL: $69.89 


PAYMENT METHOD: CREDIT ChRRD 
TRANSACTION #1456293566 -661 
DRTE4:1676372616 9431446 AM 


THANK Y0U 


NNW .MACHINE-LEARNING-JAVA .COH 


6ROCERY STORE 
921 JAVA AVENUE 


NEN YORK 

NY 

bt er 

PURCHASE! 

BUR6ER $12.84 

ONIONS $9.14 

BEER $27.55 

VAT +r1il1% TAX: $4.78 
TOTAL: $47.49 


PAYMENT METHOD: CREDIT ChRD 
TRANSACTION #1458293459 -661 
DATE:18/0838/2016 9436459 AM 


THANK YOU 








F 获 、 土 豆 、 汉堡 包 、 
将 其 标 为 1， 


说 





SF 


图 5-2 





如 表 5-1 所 示 。 


购物 交易 收据 
为 了 以 交易 数据 库 的 形式 写 出 这 些 收据 , 首先 要 识 


别 出 现 在 收据 上 的 所 有 商品 ， 








交易 商品 列表 


啤酒 与 久子。 每 一 次 购物 ( 交易 ) 写 在 一 行 中 , 若 交易 中 购买 了 某 个 商品 
否则 标 为 0， 


这 些 商 品 有 


多 





交易 ID 洋葱 土豆 汉堡 包 啤酒 勺子 
1 0 1 1 0 0 
2 1 1 1 1 0 
3 0 0 0 1 1 
4 1 0 1 1 0 


这 使 得 学 习 算 法 可 以 从 这 
2. 项 目 集 与 规则 


项 目 集 只 是 一 组 项 目 
为 : = 


这 表示 一 种 模式 ， 
各 种 有 意义 的 度量 方法 。 


3. 支持 度 








这 个 示例 包含 的 交易 很 少 ， 
得 





ll 


文 些 交易 中 发 现 显 车 的 统计 模式 。 








的 集合 








对 某 个 项 目 集 而 言 , 支持 度 指 包含 





只 有 4 个 。 实际 应 用 中 ,数据 集 通常 包含 几 千 或 者 几 百 万 笔 交 





更 


， 比 如 { 洋 玖 , 土豆 ,汉堡 包 }。 规 则 由 两 个 项 目 集 X 与 7 组 成 , 格式 


即 观察 项 目 集 X 时 ,也 会 观察 项 目 集 7。 为 了 选择 有 趣 的 规则 , 你 可 以 使 用 


该 项 目 集 的 交易 在 总 交易 中 所 占 的 比例 。 比 如 前 面 表格 中 
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的 {土豆 , 汉堡包} 项 目 集 , 它 的 支持 度 是 50%， 即 它 在 50% 的 交易 中 出 现 。 总 交易 数 为 4, 包含 { 土 
豆 , 汉堡 包 } 项 目 集 的 交易 有 两 笔 ， 所 以 supp({ 土 豆 , 汉堡 包 }) = 2/4 = 0.5。 


直观 地 说 ， 支 持 度 表示 总 交易 中 有 多 少 笔 交易 文 持 这 个 模式 。 
4. 置信 和 度 

一 个 规则 的 置信 度 指 其 准确 度 ， 其 定义 如 下 : 

Conf(X 一 芒 =supp(XU Y)/supp(X) 


比如 ， 前 面 表 格 中 ，{ 洋 葱 , 汉堡 包 } 一 {啤酒 } 规 则 的 置信 和 度 为 0.5/0.5=1.0，100% 表 示 购 买 洋 
萄 与 汉堡 包 的 顾客 也 会 同时 购买 啤酒 。 








5.2.2 ”Apriori 算法 


Apriori 算 法 十 分 经 典 ， 用 于 频繁 模式 挖 气 与 基于 事务 的 关联 规则 学 习 。 通 过 在 数据 库 中 找 
出 单独 的 频繁 项 ， 并 将 之 扩展 到 更 大 的 项 集 ，Apriori 算 法 能 够 产生 关联 规则 ， 突 出 数据 库 的 总 
体 趋势 。 


Apriori 算 法 先 创建 一 组 项 目 集 ， 比 如 项 目 集 1={ 项 目 A, 项 目 B}， 并 且 计 算 支 持 度 ， 即 计算 它 
在 数据 库 中 出 现 的 次 数 。 然 后 Apriori 算 法 使 用 自 下 而 上 的 方法 对 频繁 项 集 做 扩展 , 一 次 一 项 。 它 
工作 时 会 消去 最 大 集合 ， 把 更 小 一 点 的 集合 作为 候选 ， 并 且 认 识 到 一 个 大 集合 不 可 能 是 频繁 的 ， 
除非 它 的 所 有 子 集 都 是 频繁 集 。 找 不 到 更 多 扩展 时 ， 算 法 即 停止 。 


虽然 Apriori 算 法 是 机 器 学 习 中 的 一 个 重要 里 程 碑 , 但 它 仍 然 存在 一 些 效率 不 佳 与 权衡 取舍 的 
问题 。 接 下 来 学 习 更 新 的 FP- 增 长 算法 。 





































































































5.2.3 FP- 增 长 算法 


FP- 增 长 ( FP， 频 繁 模式 ) 算法 中 ， 将 交易 数据 库 表示 为 一 个 前 级 树 。 首 先 ， 在 算法 数据 集 
中 计算 数据 项 出 现 的 次 数 。 第 二 步 中 , 算法 创建 前 级 树 ， 它 是 一 个 有 序 树 数据 结构 ,通常 用 于 存 
储 字符 串 。 使 用 前 级 树 表示 前 面 例子 ， 如 图 5-3 所 示 。 


如 果 许 多 事务 共享 大 部 分 频繁 项 , 那么 前 级 树 就 会 产生 很 高 的 压缩 效果 ， 几乎 压 到 树 根 。 大 
项 目 集 直接 增长 ,不 会 产生 候选 项 ， 也 不 会 对 整个 数据 库 测试 它们 。 增 长 从 树 底 部 开始 ,通过 匹 
配 最 小 支持 度 与 置信 和 度 查找 所 有 项 目 集 。 一旦 递归 过 程 结束 , 所 有 带 有 最 小 覆盖 率 的 大 项 目 集 就 
会 被 找到 ， 并 开始 创建 关联 规则 。 


FP- 增 长 算法 有 几 个 优点 ， 首先 ， 它 创建 一 个 FP 树 ， 使 用 非常 紧凑 的 表示 形式 对 原 数 据 集 进 
行 编码 ;其 次 ， 它 能 够 有 效 创建 频繁 项 目 集 ， 并 且 可 以 充分 利用 FP 树 结构 与 分 而 治之 的 策略 。 























































































































(啤酒 ， 汉 堡 包 ， 土 豆 ， 洋 葱 } 











图 5-3 ”交易 商品 前 缀 树 


5.2.4 超市 数据 集 


超市 数据 集 位 于 datasets/chap5/supermarket.arff ， 它 描述 了 超市 顾客 的 购物 习惯 。 
大 部 分 属性 表示 一 个 特定 的 商品 组 ， 比 如 乳 制 品 、 牛 肉 、 土 豆 ; 或 者 部 门 ， 比 如 部 门 79、 部 门 81 
等 。 下 图 显示 了 数据 库 的 一 个 片段 , 如 果 顾 客 购买 了 某 件 商品 ,就 将 其 标 为 1,， 和 否则 标 为 0。 其 中 ， 
个 客户 就 是 一 个 实例 。 数 据 集 不 包含 类 属性 ( class attribute )， 学 习 关 联 规则 时 并 不 需要 它 。 
数据 样本 如 表 5-2 所 示 。 




















表 5-2 ”超市 数据 集 样本 





coffee sauces-gravy-pkle confectionary puddings-deserts dishcloths-scour deod-disinfectan1 frozen foods razorblades fuels-garden aids spices jams-spreads 
1 1 1 0 1 0 1 0 0 0 


DoooocoococococococoroeoeoocooocoroeoroeooroeooeoreooDo 
poopppppppPOoOPPOPOOPOPPOPOPP 
Poooorrorooocoocooooocooocooooreoeoeoeo 
~»~oroooroooocoooorororooooooro 
~»~oprooorooocooorooooroooooooo0oo0 
~»~oooooooooorooooco0oo0oo0oo0oo0oo0oo0oo0oo0oo0o0or 
pppoppppPpOoOPPOOPOPOOPOPPPOPP 
oooooocooocoooococoocooooocoooooooeoeDoe 
Dooocoocoocococoocococoocoroooocooooocoocooocooeco 
oooococococococococcocococococooocoococoocoococoocoooreoeeceeceoc 
Doooooreoooocooeooeorrroeorhoeoooeooerrhoo 
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5.3 发现 模式 


下 面 ， 使 用 前 面 学 过 的 两 种 算法 (Apriori 算 法 与 FP- 增 长 算法 ) 发 现 购物 模式 。 





5.3.1 Apriori 算法 


首先 ， 使 用 已 经 在 Weka 中 实现 的 Apriori 算 法 。 该 算法 不 断 减 小 最 小 支持 度 ， 直 到 找到 所 需 





的 规则 数 ， 它 带 有 给 定 的 最 小 置信 度 。 





import java.io.BufferedReader 
import java.io.FileReader 

import weka, core,lnstances 

import weka.associations.Apriori, 


其 次 ， 加 载 超市 数据 集 ， 代 码 如 下 : 
Instances data = new lnstances 


new BufferedReader 
new FileReader("datasets/chap5/supermarket.arff"))) 


接着 , 初始 化 Apriori 实 例 ， 调用 bui1dAssociations(1nstances) 函数 ,开始 频繁 模式 控 
代码 如 下 : 


Apriori model = new Apriori(); 
model .buildAssociations(data) 


最 后 ， 输 出 发 现 的 项 目 集 与 规则 ， 代 码 如 下 : 
System.out.println(model); 
输出 结果 如 下 : 


Aprior 








Minimum support: 0.15 (694 instances) 
Minimum metric <confidence>: 0.9 
Number of cycles performed: 17 


Generated sets of large itemsets: 

Size of set of large itemsets L(1): 44 
Size of set of large itemsets L(2): 380 
Size of set of large itemsets L(3): 910 
Size of set of large itemsets L(4): 633 
Size of set of large itemsets L(5): 105 
Size of set of large itemsets L(6): 1 


Best rules found 


1, biscuits=t frozen foods=t fruit=t total=high 788 ==> bread and cake=t 723 
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<conf:(0.92)> lift:(127) lev:(0.03) [155] conv:(3.35) 

2, baking needs=t biscuits=t fruit=t total=high 760 ==> bread and cake=t 696 
<conf:(0.92)> lift:(127) lev:(0.03) [149] conv:(3.28) 

3, baking needs=t frozen foods=t fruit=t total=high 770 ==> bread and cake=t 705 
<conf:(0.92)> lift:(127) lev:(0.03) [150] conv:(3.27) 


这 个 算法 根据 置信 度 输出 10 个 最 佳 规则 。 先 看 第 一 个 规则 ， 并 对 输出 进行 解释 ， 如 下 所 示 : 





biscuits=t frozen foods=t fruit=t total=high 788 ==> bread and cake=t 723 

<conf:(0.92)> lift:(1.27) lev:(0.03) [155] conv:(3.35) 

上 述 规则 表明 : 顾客 同时 购买 饼干 、 冷 冻 食 品 与 水 果 且 总 价 较 高 时 , 很 和 可 能 也 会 购买 面包 
与 蛋糕 。{ 饼干 ， 冷冻 食品 ， 水果， 总 购买 价格 高 } 项 目 集 出 现在 788 笔 交 易 中 ， 而 { 面包 ， 蛋糕 } 
项 目 集 出 现在 723 笔 交 易 中 。 这 个 规则 的 置信 度 为 0. 9 2 ， 表 示 其 在 92% 的 交易 中 都 适用 ， 即 出 现 
{ 饼干 ， 冷冻 食品 ， 水果， 总 购买 价格 高 } 项 目 集 。 


























输出 结果 也 显示 了 其 他 指标 ， 比 如 提升 度 (1ift )、 杠 杆 率 ( leverage )、 确 信和 度 〈conviction )， 
用 于 评估 相对 于 最 初 假设 的 准确 程度 。 比 如 确信 度 为 3. 35 ， 表 示 在 关联 完全 随机 的 情形 下 ， 规 
则 不 正确 的 可 能 性 将 是 平常 的 3 , 35 倍 。 提 升 度 表 示 X 与 7 相 比 于 预期 同时 出 现 的 次 数 ， 前 提 是 它 
们 是 统计 独立 的 (1 1ift =1 )。X 一 7 规则 中 ， 提 升 度 为 2.16 表 示 X 的 几率 比 7 的 几率 大 2.16 倍 。 


























5.3.2 FP- 增长 算法 




















下 面 尝试 使 用 更 有 效率 的 FP- 增 长 算法 得 到 一 样 的 结果 。FP- 增 长 算法 也 是 在 weka. 
ass0ciations 包 中 实现 的 。 





import weka.associations.FPGrowth,; 

就 像 我 们 前 面 所 做 的 那样 ， 首 先 对 FP- 增 长 算法 进行 初始 化 。 
FPGrowth fpgModel = new FPGrowth!(); 

fpgModel .buildAssociations(data) 
System.out.println(fpgModel); 


输出 结果 表明 FP- 增 长 算法 发 现 了 16 个 规则 : 


FpGrowth found 16 rules (displaying top 10) 








1, [fruit=t, frozen foods=t, biscuits=t, total =high]: 788 ==> [bread and cake=t]: 723 
<conf:(0.92)> lift:(1.27) lev:(0.03) conv:(3.35) 

2, [fruit=t, baking needs=t, biscuits=t, total =high]: 760 ==> [bread and cake=t]: 696 
<conf:(0.92)> lift:(1.27) lev:(0.03) conv:(3.28) 








可 以 看 到 ， 用 FP- 增 长 算法 找到 的 规则 与 Apriori 算 法 差不多 是 一 样 的 。 但 处 理 大 型 数据 集 时 ， 
使 用 FP- 增 长 算法 需要 的 时 间 明 显 更 短 ， 执 行 效率 更 高 。 
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5.4 在 其 他 领域 中 的 应 用 


上 面 介绍 了 关联 分 析 在 揭示 超市 顾客 购物 行为 模式 方面 的 应 用 。 尽管 关联 规则 学 习 根植 于 对 
销售 点 的 交易 分 析 , 但 它 也 可 以 应 用 于 零售 业 之 外 的 其 他 领域 ,用 来 在 其 他 类 型 的 “购物 篮 ” 中 
寻找 关联 。 “购物 篮 ” 这 个 概念 可 以 很 容易 地 扩展 到 服务 与 产品 ， 比 如 分 析 使 用 信用 卡 购买 的 服 
务 ， 像 租车 、 租 房 ; 又 比如 分 析 与 电信 用 户 购 买 的 增值 服务 相关 的 信息 〈 呼 叫 等 待 、 呼 叫 转移 、 
DSL、 缩 位 拨号 等 )， 这 可 以 帮助 运营 商 决定 如 何 改进 他 们 提供 的 服务 包 。 


接 下 来 ， 了 解 如 下 这 些 跨 行业 应 用 的 例子 : 


口 医疗 诊断 

口 蛋白 质 序列 
口 人 口 普查 

口 客户 关系 管理 
口 TT 运营 分 析 














5.4.1 医疗 诊断 


医疗 诊断 中 , 关联 规则 可 以 辅助 医生 对 患者 进行 治疗 。 诊 疗 过 程 中 一 个 常见 的 难题 是 ， 很 难 
归纳 出 可 靠 的 诊断 规则 。 从 理论 上 说 ， 归 纳 过 程 不 能 完全 保证 归纳 假设 本 身 的 正确 性 。 事 实 上 ， 
诊断 过 程 本 身 不 是 一 个 轻松 的 事 , 因为 它 会 涉及 不 可 靠 的 诊断 测试 , 而 且 训 练 样本 中 可 能 还 存在 
噪声 问题 。 


尽管 如 此 ,我 们 仍然 可 以 使 用 关联 规则 识别 可 能 同时 出 现 的 症状 。 这 种 应 用 情景 中 ,一 个 事务 
对 应 于 一 个 医疗 案例 ,而 症状 对 应 于 项 目 。 治疗 病人 时 会 记录 一 系列 症状 , 它们 一 起 组 成 一 个 事务 。 

















5.4.2 ”蛋白质 序列 


有 关 和 蛋白 质 的 大 量 研究 已 经 深入 到 了 解 其 组 成 与 性 质 中 来 , 然而 还 有 许多 方面 有 待人 们 认真 
研究 。 现 在 普遍 的 共识 是 : 蛋白 质 的 氨基 酸 序列 不 是 随机 的 。 


缘 助 关联 规则 , 我 们 有 可 能 识别 同一 个 蛋白 质 中 不 同 氨基 酸 之 间 的 关联 性 。 和 蛋白 质 序 列 由 20 
种 氨基 酸 组 成 。 每 种 蛋白 质 拥 有 独一无二 的 三 维 结构 ,具体 取决 于 氨基 酸 序 列 , 序列 中 微小 的 改 
变 都 会 导致 蛋白 质 功能 发 生变 化 。 应 用 关联 规则 时 , 一 种 蛋白 质 对 应 于 一 个 事务 , 氨基 酸 与 其 结 
构 对 应 于 项 目 。 

这 些 关 联 规则 有 助 于 加 深 我 们 对 蛋白 质 组 成 的 理解 ,有 可 能 帮助 我 们 在 蛋白 质 的 一 些 特殊 的 
氨基 酸 组 中 找到 有 关 全 球 相互 作用 的 线索 。 这 些 关 联 规则 或 约束 的 知识 对 于 人 工 合成 蛋白 质 非常 
有 用 。 
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5.4.3 ”人 口 普 查 数据 

人 口 普 查 产生 大 量 与 社会 有 关 的 统计 信息 , 这 些 信 息 既 可 以 提供 给 研究 者 使 用 , 也 可 以 提供 
给 普通 大 众 。 有 关 人 口 数 量 与 经 济 普查 的 信息 可 以 用 在 公共 服务 ( 教育、 医疗 、 交 通 、 基 金 ) 与 
商业 (设立 新 工厂 、 购 物 中心 、 银 行 甚 至 推销 特定 商品 ) 规划 中 。 

为 了 发 现 频繁 模式 ， 每 个 统计 区 域 ( 比如 自治 区 、 城 市 、 邻 区 ) 对 应 于 一 个 事务 ， 收 集 的 指 
标 对 应 于 项 目 。 

































































5.4.4 客户 关系 管理 

第 4 章 已 经 简单 讨论 过 客户 关系 管理 ( CRM )， 它 是 一 个 富 数据 源 ， 公 司 希 望 通过 它 找 出 不 
同 客户 组 对 产品 、 服 务 的 偏好 ， 借 此 加 强 产品 、 服 务 、 客 户 之 间 的 黏合 度 。 

关联 规则 能 够 强化 知识 管理 流程 ,帮助 营销 人 员 更 好 地 了 解 他 们 的 客户 , 以便 向 客户 提供 更 
优质 的 服务 。 比 如 ， 关 联 规则 可 以 从 客户 资料 与 销售 数据 中 检测 客户 在 不 同时 间 段 行为 的 变化 。 
基本 思想 是 从 两 个 数据 集 找到 变化 ， 并 从 每 个 数据 集 产生 规则 进行 规则 匹配 。 






































5.4.5 IT 运营 分 析 


在 大 量 事务 记录 基础 之 上 , 关联 规则 学 习 很 适合 用 于 分 析 每 天 IT 运营 定期 收集 的 数据 , 启用 
IT 运营 分 析 工 具 检测 频繁 模式 并 找到 主要 变化 。IT 专 家 需要 查看 总 体 运营 情况 , 并 了 解 某 个 问题 
带 来 的 影响 ， 比 如 一 个 数据 库 的 问题 如 何 影 响应 用 程序 服务 器 。 


在 一 个 特殊 的 日 子 , IT 运 营 可 能 发 现 许多 警报 , 并 进一步 发 现 它们 来 自 一 个 事务 数据 库 。 此 
青 形 下 ， 使 用 关联 规则 学 习 算 法 后 ，IT 运 营 分 析 工 具 可 以 检测 到 同时 出 现 这 些 警 报 的 频繁 模式 。 
这 能 帮助 我 们 更 好 地 了 解 组 件 之 间 是 如 何 相 互 影响 的 。 


借助 发 现 的 这 些 警 告 模式 ， 可 以 进行 预测 分 析 。 比 如 某 个 特定 的 数据 库 服 务 器 中 包含 一 个 
Web 应 用 程序 ， 突 然 触发 一 个 数据 库 警 报 。 通 过 查看 关联 规则 学 习 算 法 发 现 的 频繁 模式 ，IT 工 作 
人 员 可 以 采取 相应 措施 ， 避 免 问题 进一步 影响 Web 应 用 程序 。 


关联 规则 学 习 也 能 发 现 那 些 源 自 相 同 IT 事件 的 警报 事件 。 比 如 每 次 添加 新 用 户 时 ，Windows 
操作 系统 中 就 会 检测 到 6 个 变化 ,接着 ,在 应 用 组 合 管理 工具 ( Application Portfolio Management， 
APM ) 中 ，IT 可 能 面临 多 个 警报 ， 显 示 数 据 库 中 的 事务 时 间 为 “高 "。 如 果 所 有 这 些 问 题 都 来 自 
同一 个 源 (比如 几 百 个 更 改 警报 都 是 由 Windows 更 新 引起 的 )， 那 么 这 个 频繁 模式 挖掘 可 以 帮助 
我 们 快速 删 减 警报 数量 ， 让 IT 运 维 人 员 专 注 于 最 关键 的 改变 。 
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5.5 小结 


本 章 学 习 了 应 用 事务 数据 集 上 的 关联 规则 学 习 以 深 入 了 解 频繁 模式 的 方法 ， 并 且 在 Weka 中 
做 了 关联 分 析 演 示 。 我 们 从 中 认识 到 , 最 困难 的 部 分 在 于 对 结果 的 分 析 , 解释 规则 时 要 小 心 留意 ， 
因为 关联 ( 即 相关 性 ) 与 因果 关系 是 不 同 的 。 


下 一 章 将 学 习 如 何 使 用 Apache Mahout 库 解决 商品 推荐 问题 。Apache Mahout 是 一 个 可 扩展 的 
机 哗 学 习 库 ， 它 可 以 处 理 大 数据 。 




















使 用 Apache Mahaut 制 作 
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推荐 引擎 可 能 是 当今 初创 公司 应 用 最 多 的 一 种 数据 科学 方法 。 有 两 项 主要 技术 用 来 创建 一 个 
推荐 系统 : 基于 内 容 的 过 滤 与 协同 过 滤 。 基 于 内 容 的 过 滤 算 法 使 用 项 目 属性 寻找 带 有 相似 属性 的 
项 目 ; 协同 过 滤 算 法 关注 的 是 用 户 的 评分 或 者 其 他 用 户 的 行为 , 它 基于 拥有 类 似 行为 的 用 户 喜 好 
与 购买 的 物品 进行 推荐 。 


本 章 先 讲解 基本 概念 ， 它 们 是 理解 推荐 引擎 原理 必需 的 内 容 ; 然后 演示 如 何 使 用 Apache 
Mahout 中 的 各 种 算法 实现 快速 创建 一 个 可 扩展 的 推荐 引擎 。 本 章 内 容 涵盖 如 下 主题 : 


口 如 何 创建 一 个 推荐 引擎 
口 准备 Apache Mahout 

口 基于 内 容 的 方法 

口 协同 过 滤 方 法 


到 本 章 结束 时 , 你 将 知道 我 们 的 问题 适合 使 用 哪 种 推荐 引擎 进行 解决 , 以 及 如 何 快速 创建 这 
样 一 个 推荐 引擎 。 
































6.1 基本 概念 


推荐 引 警 的 目标 是 向 用 户 展示 他 们 感 兴趣 的 项 目 。 与 搜索 引擎 不 同 的 是 , 相关 内 容 通常 出 现 
在 一 个 网 站 中 , 用 户 不 必 创建 查询 来 请 求 它 。 因 为 推荐 引擎 会 观察 用 户 的 行为 , 并 且 在 用 户 不 知 
情 的 情况 下 为 他 们 创建 查询 。 


可 以 这 么 说 ， 推 荐 引擎 最 著名 的 例子 就 是 www.amazon.com， 它 使 用 多 种 方法 为 用 户 做 个 性 
化 推荐 。 图 6-1 向 我 们 展示 了 一 种 商品 推荐 的 例子 一 一 “购买 这 件 商 品 的 顾客 还 买 了 ……”。 这 是 
一 个 基于 项 目的 协同 推荐 的 例子 , 在 这 种 推荐 方式 下 , 与 特定 项 目 相似 的 项 目 都 会 得 到 推荐 。 相 
关内 容 稍 后 讲解 。 
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图 6-1 一 个 推荐 引 警 的 例子 一 一 www.amazon.com 
本 节 将 介绍 几 个 关键 概念 ， 它 们 与 理解 和 创建 推荐 引擎 息息相关 。 








6.1.1 关键 概念 

推荐 引擎 需要 如 下 4 个 输入 做 出 推荐 : 

口 使 用 属性 描述 的 项 目 信息 ; 

口 用 户 资料 ， 比 如 年 龄 范围 、 性 别 、 位 置 、 朋 友 等 ; 

口 用 户 交 互 ， 比 如 评级 、 浏 览 、 标 记 、 比 较 、 保 存 、 电 邮 ; 

口 显示 项 目 上 下 文 ， 比 如 项 目的 分 类 与 地 理 位置 。 

获得 这 些 输入 后 ， 推 荐 引擎 将 其 组 合 在 一 起 ， 帮 助 我 们 回答 如 下 问题 : 


口 购买 观看、 浏览、 收藏 过 这 个 项 目的 用 户 还 买 了 、 看 了 、 浏 览 了 、 收 藏 了 …… 
口 与 这 个 项 目 类 似 的 项 目 

口 你 可 能 认识 的 其 他 用 户 

口 和 你 类 似 的 其 他 用 户 


下 面 详细 介绍 这 种 组 合 是 如 何 工 作 的 。 





























6.1.2 ”基于 用 户 与 基于 项 目的 分 析 


创建 推荐 引擎 时 要 搞 清楚 ,推荐 引擎 尝试 推荐 一 个 特定 项 目 时 , 搜索 的 是 相关 项 目 还 是 相关 
用 户 。 
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基于 项 目的 分 析 中 , 引擎 的 主要 任务 是 找 出 那些 与 特定 项 目 类 似 的 项 目 ; 而 基于 用 户 的 分 
析 中 ,引擎 首先 要 找 出 那些 与 特定 用 户 类 似 的 用 户 。 比 如 ， 先 找 出 那些 带 有 相同 资料 信息 〈 年 
龄 、 性 别 等 ) 或 行为 历史 (〈 买 了 、 看 了 、 浏 览 了 等 ) 的 用 户 ， 然 后 将 相同 项 目 推荐 给 其 他 类 似 
用 户 。 

这 两 种 方法 都 要 求 计算 一 个 相似 矩阵 ( similarity matrix )， 具 体 取决 于 分 析 的 是 项 目 属性 还 
是 用 户 行为 。 下 面 深 入 了 解 具 体 应 该 如 何 做 。 























6.1.3 ”计算 相似 度 的 方法 
计算 相似 度 ( similarity ) 的 基本 方法 有 3 种 : 


口 协同 过 滤 算法 关注 的 是 用 户 评分 或 其 他 用 户 的 行为 ， 并 且 基 于 拥有 类 似 行为 的 用 户 喜 好 
与 购买 的 物品 进行 推荐 ; 
口 基于 内 容 的 过 滤 算 法 使 用 项 目 属性 寻找 带 有 相似 属性 的 项 目 ; 
口 组 合 了 协同 过 滤 与 基于 内 容 的 过 滤 的 混合 方法 。 


接 下 来 ， 详 细 学 习 每 一 种 方法 。 

1. 协同 过 滤 

协同 过 滤 只 基于 用 户 评级 或 其 他 用 户 的 行为 , 基于 拥有 相似 行为 的 用 户 喜 好 与 购买 的 物品 进 
行 推荐 。 

协同 过 滤 的 主要 优点 是 不 依赖 于 项 目 内 容 , 因此 可 以 准确 推荐 复杂 项 目 , 而 无 需 了 解 项 目 本 
身 ， 比 如 电影 。 它 基于 的 假设 是 “人 们 过 去 认可 的 将 来 也 会 认可 ”“ 他 们 喜欢 与 过 去 喜欢 的 项 目 
相似 的 项 目 ”。 


这 个 方法 的 主要 缺点 就 是 所 谓 的 冷 启动 (cold start )， 也 就 是 说 ， 如 果 想 创建 一 个 精确 的 协 
同 过 滤 系 统 , 算法 往往 需要 先 有 大 量 用 户 评分 。 因 此 , 产品 的 第 一 个 版 本 中 通常 不 会 使 用 协同 过 
滤 ， 直 到 有 了 相当 数量 的 数据 积累 之 后 才 会 使 用 。 


2. 基于 内 容 的 过 滤 


另 一 方面 , 基于 内 容 的 过 滤 建 立 在 项 目的 描述 与 用 户 偏好 资料 之 上 , 按照 如 下 步骤 进行 组 合 : 
首先 , 使 用 属性 描述 项 目 并 找 出 相似 项 目 , 我 们 选用 一 个 距离 测度 〈 比如 余弦 距离 或 皮尔 逊 相关 
系数 ， 详 细 内 容 请 参考 第 1 章 有 关 距 离 测度 的 内 容 ) 测量 项 目 之 间 的 距离 。 接 着 ,将 用 户 资料 输 
入 方程 式 。 鉴于 用 户 喜 欢 的 项 目 类 型 的 反馈 , 我 们 引入 权重 指示 特定 项 目 属性 的 重要 程度 。 比如 ， 
“潘多拉 电台 流 媒体 服务 应 用 ”基于 内 容 的 过 滤 技 术 使 用 400 多 个 属性 创建 电台 。 起 初 , 一 个 用 户 
通过 特定 属性 挑选 了 一 支 歌 曲 ， 并 通过 提供 反馈 突出 重要 的 歌曲 属性 。 
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这 个 方法 最 初 只 需要 很 少 的 用 户 反 馈 信息 ， 因 此 它 能 有 效 避 免 冷 启动 问题 。 

3. 混合 方法 

那么 , 应 该 如 何 选择 协同 过 滤 方 法 与 基于 内 容 的 过 滤 方 法 呢 ? 借助 协同 过 滤 方 法 可 以 从 用 户 
对 一 个 内 容 源 的 行为 了 解 用 户 喜 好 , 并 通过 用 户 偏好 找 出 其 他 类 型 的 内 容 。 基 于 内 容 的 过 滤 方 法 
仅 限 于 推荐 同类 型 的 内 容 ， 并 且 用 户 已 经 在 使 用 这 种 类 型 。 这 对 于 不 同 的 使 用 案例 是 有 价值 的 ， 
比如 基于 用 户 正 在 浏览 的 新 闻 推荐 新 闻 文 章 是 有 用 的 。 但 如 果 能 够 青 进一步 , 基于 正在 浏览 的 新 
闻 推 荐 其 他 类 型 的 资源 ( 比如 图 书 、 电 影 )， 这 将 会 更 有 用 。 


协同 过 滤 与 基于 内 容 的 过 滤 不 是 相互 排斥 的 , 某 些 情况 下 , 我 们 可 以 将 二 者 组 合 以 产生 更 有 
效 的 结果 。 比 如 ，Netflix 使 用 协同 过 滤 分 析 相 似 用 户 的 搜索 与 观看 模式 。 此 外 ,还 使 用 基于 内 容 
的 过 滤 向 用 户 推荐 高 评分 影片 。 


混合 技术 有 很 多 ， 比 如 加 权 混 合 、 切 换 混 合 、 分 区 混合 、 特 征 组 合 、 特 征 扩充 、 级 联 混合 、 
分 层 混合 等 。 机 器 学 习 与 数据 挖掘 社区 中 ,推荐 系统 一 直 是 个 活跃 版 块 ， 数 据 科学 会 议 上 也 会 专 
门 为 它 设 立 分 会 场 。 通 过 Adomavicius 与 Tuzhilin ( 2005 ) 的 Toward the next generation of 
Tecommender systems: a Survey of the state-of-the-art and possible extensions 论 文 ， 你 可 以 很 好 地 了 
解 这 些 技术 。 论 文中 , 作者 讨论 了 不 同方 法 与 基本 算法 ,并 且 提 供 了 更 多 有 价值 的 参考 论文 。 需 
要 认真 了 解 某 个 特定 方法 时 ,为 了 获取 更 多 技术 细节 ,你 可 以 阅读 弗朗西斯 科 ' 里 奇 等 人 合 著 的 
《推荐 系统 : 技术 、 评 佑 及 高 效 算法 六 













































































6.1.4 利用 与 探索 


推荐 系统 中 , 不 同 推荐 项 目 之 间 总 是 存在 权衡 取舍 ， 一 类 推荐 项 目 会 落 入 用 户 甜 区 , 它 基 于 
我 们 对 用 户 已 有 的 了 解 〈 利 用 ); 男 一 类 推荐 项 目 不 会 陷入 用 户 甜 区 ， 其 目标 是 向 用 户 展示 一 些 
新 奇 物品 ( 探索 )。 带 有 一 点 探索 特征 的 推荐 系统 只 会 推荐 与 前 一 个 用 户 评价 一 致 的 项 目 ， 不 会 
显示 那些 不 在 当前 范围 的 项 目 。 事实 上 , 我 们 也 经 常 需 要 从 用 户 甜 区 外 收获 新 项 目 ， 这 通常 会 带 
来 惊喜 ， 也 有 助 于 发 据 用 户 新 的 甜 区 。 


本 节 讨论 了 创建 推荐 引擎 必需 的 概念 ， 接 下 来 学 习 如 何 使 用 Apache Mahout 实 际 创建 一 个 推 
荐 引擎 。 































































































6.2 获取 Apache Mahout 


第 2 章 已 经 介绍 过 Mahout， 它 是 一 个 可 扩展 的 机 器 学 习 库 ， 提 供 了 丰富 的 组 件 。 借 助 这 些 组 
件 , 你 可 以 使 用 所 选 算 法 创建 一 个 定制 的 推荐 系统 。Mahout 的 创造 者 说 , 它 是 一 个 企业 级 的 、 性 
能 良好 的 、 有 具有 高 可 扩展 性 与 灵活 性 的 机 器 学 习 库 。 
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可 以 使 用 两 种 方法 配置 并 运行 Mahout: 一 种 是 单机 运行 (有 无 Hadoop 均 可 ); 另 一 种 是 分 布 
式 处 理 。 我 们 把 重点 放 在 没有 配置 Hadoop 的 Mahout 上 。 关 于 Mahout 更 多 高 级 配置 与 使 用 方法 ， 
推荐 你 阅读 如 下 Learning Apache Mahout 和 Learning Apache Mahout Classification。 


由 于 Apache Mahout 的 创建 与 发 布 系统 都 是 基于 Maven 的 ， 所 以 需要 先 学 习 如 何 安装 。 下 面 
介绍 一 种 最 简单 的 安装 方法 ,需要 用 到 带 有 Maven 插 件 的 Eclipse。 





在 带 有 Maven 插件 的 Eclipse 中 配置 Mahout 


需要 使 用 最 新 版 本 的 Eclipse， 可 以 从 Eclipse 官方 站 点 下 载 。 本 书 选 用 Eclipse Luna。 打 开 
Eclipse， 新 建 一 个 Maven 项 目 ， 保 持 默认 设置 不 变 ， 如 图 6-2 所 示 。 








| Select a wizard 


| Create a Maven Project 
| 


Wizards: 


PF > General 

| | PpEcvs 

Pp E> Git 

| PF E> Java 
TE Maven 


| MS Maven Module 


PF EETasks 


SO 





末 Check out Maven Projects from SCM 


| Maven Project 


图 6-2 


New 


Cancel 











新 建 项 目 页 面 





单 击 Next 按 钮 ， 弹 出 New Maven project 窗 口 ， 如 图 6-3 所 示 。 
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@e New Maven Project 
New Maven project A 

Specify Archetype parameters | 
Groupld: MLJavaBook | 
Artifact Id: RecommenderSystem | 


Version: |0.0.1-SNAPSHOT 


Package: | MLJavaBook.RecommenderSystem | 


Properties available from archetype: 


Name Value Add... 


Remove 


b Advanced 





@ < Ga 














图 6-3 New Maven project 窗 口 


接 下 来 , 要 癌 项 目 添加 Mahoutjar 文 件 及 其 依赖 包 。 找 到 pom.xml 文 件 ， 使 用 文本 编辑 器 打开 | 
( 点击 pom.xml 后 依次 选择 Open with>Text Editor )， 如 图 6-4 所 示 。 
























































情 Package Explorer 癌 | 敢 等 sl pom-xml 器 
vchap6 1 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs 
各 Pe a 2 xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 htt 
TE EE 3 <modelVersion>4.0.0</modelVersion> 
了 和 外 MLJavaBook.chap6 4 
上 四 Appjava 5 <groupId>MLJavaBook</groupId> 
bp BN JRE System Library [J2SE-1.5] 6 <artifactId>chap6</artifactId> 
F 到 Maven Dependencies 7 <version>0.0.1-SNAPSHOT</version> 
psrc 8 <packaging>jar</packaging> 
= 可 9 
target 
de 10 cnnmo~rhap6</name> 
宣 EnergyEfficiency New Pb tp://maven.apache.org</url> 
Open F3 ties> 
Open With p 网 Maven POM Editor F-8</project.build. sour 
Show In BW Pp |v 有 TextEditor 
| 和 
嘲 Copy ¥C XML Editor 
Copy Qualified Name 蛋 System Editor groupId> 
本 actId> 
加 Paste BV | Default Editor 
XX Delete 区 
| Other... 
~ 。 ~ 一 一 








图 6-4 使 用 文本 编辑 器 打开 pom.xml 文 件 
在 pom.xml 文 件 中 找到 以 <dependencies> 开 始 的 行 ， 紧 接着 添加 如 下 代码 : 


<dependency> 
<groupl d>org.apache.mahout </groupl d> 
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<artifactld>mahout- mr</artifactld> 
<version>0.10.0</version> 
</ dependency> 


这 样 就 添加 好 了 Mahout 库 ， 现 在 可 以 正常 使 用 了 。 





6.3 创建 一 个 推荐 引擎 
为 了 演示 基于 内 容 的 过 滤 与 协同 过 滤 方法 ， 下 面 创建 一 个 图 书 推荐 引擎 。 





6.3.1 图 书评 分 数据 集 


本 章 将 使 用 图 书评 分 数据 集 ( Ziegler 等 ，2005 )， 它 由 一 个 疏 虫 程序 收集 了 4 周 而 得 到 。 该 数 
据 集 包 含 的 数据 涉及 Book-Crossing 网 站 的 278 858 个 会 员 与 1 157 112 个 评分 ， 这 些 评分 既 有 隐 含 
的 也 有 明确 的 ， 涵 盖 271 379 个 不 同 的 ISBN。 用 户 数据 经 过 匿名 化 处 理 ， 但 含有 人 口 统计 信息 。 
你 可 以 从 如 下 网 站 获得 该 数据 集 : 











http:/www2.informatik.uni-freiburg.de/~cziegler/BX/ 
Book-Crossing 数 据 集 包 含 3 个 文件 ， 网 站 中 对 于 这 3 个 文件 的 描述 如 下 。 


口 BX-Users: 包含 用 户 。 请 注意 ， 用 户 ID ( User-ID ) 被 匿名 化 处 理 ， 由 字符 串 换 为 整数 。 

如 果 存 在 统计 数据 则 给 出 〈 位置 与 年 龄 )， 否 则 这 些 字段 就 是 NULL 值 。 

口 BX-Books: 图 书 通过 各 自 不 同 的 ISBN 号 码 加 以 识别 。 无 效 ISBN 已 经 被 从 数据 集中 移 走 。 
而 且 ， 给 出 了 一 些 基 于 内 容 的 信息 (图书 名 称 、 图 书 作者 、 出 版 年 份 、 出 版 商 )， 这 些 信 
息 是 从 Amazon Web Service 那 里 得 到 的 。 请 注意 ， 如 果 图 书 有 多 个 作者 ， 则 只 提供 第 一 作 
者 。 此 外 还 给 出 了 指向 封面 图 片 的 URL 连 接 ， 有 三 种 不 同形 式 : Image-URL-S 、 
Image-URL-M、JImage-URL-L， 即 小 、 中 、 大 。 这 些 URL 指 向 Amazon 网 站 。 

口 BX-Book-Ratings: 包含 图 书 的 评分 信息 。 有 些 评分 ( Book-Rating ) 很 明确 , 使 用 数字 1~10 

表示 ( 分 值 越 高 表示 越 值得 阅读 ); 有些 评分 不 明 ， 使 用 0 表示 。 









































6.3.2 ”加 载 数据 


根据 数据 的 存储 位 置 (文件 或 数据 库 )， 有 两 种 不 同 的 数据 加 载 方法 可 以 选用 。 首 先 详细 讲 
解 如 何 从 文件 加 载 数据 ， 包 括 如 何 处 理 自 定义 格式 。 之 后 快速 了 解 如 何 从 数据 库 加 载 数据 。 


1. 从 文件 加 载 数据 


可 以 使 用 Fi 1eDataModel 类 从 文件 加 载 数据 ， 文 件 中 的 数据 以 逗号 进行 分 隔 ， 每 一 行 顺序 
包含 userlD、itemlD、preference( 可 选 )、timestamp (可 选 )， 格 式 如 下 : 
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usSerlD，itemlD[，preference[，timestamp]l] 


可 选项 preference 是 一 个 二 元 偏好 值 ， 也 就 是 说 ， 对 于 某 本 书 ， 用 户 要 么 “喜欢 ”， 要 么 “不 
喜欢 ”， 没 有 喜爱 程度 的 差别 。 


以 # 开 始 的 行 或 空 行 都 会 被 忽略 。 数 据 行 也 可 以 包含 其 他 字段 ， 但 这 些 字段 会 被 忽略 。 


Dat aModel 类 可 以 接受 如 下 类 型 . 








Yi 





口 userID 、itemID 是 long 类 型 


口 preference 是 double 类 型 




















口 timestamp 是 long 类 型 





如 果 你 能 提供 上 面 这 种 格式 的 数据 集 ， 那 就 可 以 简单 地 使 用 如 下 代码 加 载 数据 : 
DataModel model = new FileDataModel (new File(path)); 


这 个 类 不 适合 用 于 加 载 大 量 数据 , 比如 几 千 万 行 数据 。 需 要 加 载 大 量 数据 时 , 使 用 带 有 JDBC 
支持 的 Dat a Mo del 与 数据 库 会 更 合适 。 


现实 情况 下 , 我 们 无 法 保证 提供 给 我 们 的 输入 数据 中 , user10 与 it eml D 总 为 整 型 值 。 比 如 ， 
示例 中 ，i teml D 对 应 于 ISBN 书 号 ， 它 可 以 唯一 地 标识 一 本 图 书 ， 那 么 就 不 是 整 型 值 。 默 认 情 况 
下 ,，FileDat aModel 不 适合 处 理 这 种 数据 。 




















下 面 考 虑 itemlD 是 字符 串 时 应 该 如 何 处 理 。 我 们 要 定义 自己 的 数据 模型 ， 对 
FileDataModel 做 扩展 ， 重 载 readlteml DFromSstringl(Stringl) 方 法 ,， 读 和 人 字符 串 形 式 的 
it eml D 值 ， 而 后 将 其 转换 为 | ong 型 值 并 返回 。 为 了 将 St ri ng 转化 为 | ong ， 我 们 要 对 Mahout 中 
的 Abstractl1DMgrator 辅 助 类 做 扩展 ， 这 个 类 的 设计 初 囊 就 是 为 了 完成 这 个 任务 。 


下 面 看 看 如 何 对 Fi | eDat aModel 做 扩展 : 


class Stringlteml dFileDataMode|l extends FileDataModel { 





11 初始 化 将 St ri ng 转换 为 | 0ng 的 转换 器 
public ltemMeml DMi grator meml dMi gtr; 


public Stringlteml dFileDataModel (File dataFfile, String regex) 
throws | OException { 
super(datafile, regex); 

} 





@ 重 载 
protected long readlteml DFromString(String value) { 


if (meml dMigtr == null) { 
meml dMi gtr = new ltemMeml DMi grator(); 
} 
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1 1 转换 为 | 0ng 
long retValue = meml dMi gtr.toLongl D(value) 
1 1 存储 到 缓存 
if (null == meml dMigtr.toStringlD(retValue)) { 
try { 
meml dMi gtr.singlelnit(value) 
} catch (TasteException e) { 
e.printStackTracel(); 
} 
} 
return retValue 


} 
11 将 | 0ng 转 换 为 Sring 


String getlteml DAsString(long itemld) { 
return meml dMi gtr.toStringl D(itemld) 


} 
} 


对 其 他 有 用 的 方法 进行 重 载 ， 如 下 。 


口 readUserlDFromstring(String val ue) : 如 果 用 户 ID 不 是 数字 。 
DreadTimestampFromstringlString val ue) : 更 改 解析 时 间 惟 的 方式 。 


接 下 来 ， 对 AbstractlDMI grator 类 做 扩展 : 


class ltemMeml DMi grator extends AbstractlDMgrator { 




















private FastByl DMap<String> longToString; 


public ltemMeml DMi grator() { 
this.longToString = new FastByl DMap<String>(10000) 
} 


public void storeMapping(long longlD, String stringlD) { 
longToString.put (longlD, stringlD),; 
} 


public void singlelnit(String stringlD) throws TasteException { 
storeMapping(toLongl D(stringlD), stringlD); 
} 


public String toStringlD(long longlD) { 
return longToString.get(longlD) 
} 
} 


以 上 就 是 所 有 准备 工作 。 下 面 加 载 数据 集 ， 代 码 如 下 : 
StringltemldFileDataModel model = new Stringlteml dFileDataModel 


new File("datasets/chap6/BX-Book-Ratings.csv"), ";"); 
System.out.println( 
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"Total items: ”+ model.getNumltems() + 
"\nTotal users: " +tmodel. get NumUsers()) 


上 述 代 码 分 别 输出 项 目 与 用 户 总 数 ， 如 下 : 

Total items: 340556 

Total users: 105283 

至 此 ， 从 文件 载 人 数据 集 的 工作 就 完成 了 ， 接 下 来 开始 推荐 。 不 过 在 此 之 前 ,还 是 先 了 解 一 
下 如 何 从 数据 库 加 载 数据 。 


2. 从 数据 库 加 载 数据 


除了 从 文件 加 载 数据 之 外 ， 还 可 以 从 数据 库 中 加 载 数据 ， 这 需要 用 到 一 个 JDBC 数 据 模型 。 
本 章 不 会 详细 讲解 安装 数据 库 、 连 接 数 据 库 等 内 容 ， 只 大 致 了 解 应 该 怎样 做 。 


由 于 数据 库 连 接 器 存在 于 一 个 单独 的 包 一 一 mahout-integration 中 ， 所 以 首先 要 把 这 个 
包 添 加 到 项 目的 依赖 列表 。 打 开 pom. xml 文件 ， 添 加 如 下 依赖 关系 : 


<dependency> 
<groupl d>org.apache. mahout </groupl d> 
<artifactld>mahout-integration</artifactld> 
<version>0.7</version> 

</ dependency> 


由 于 要 连接 MySQL 数 据 库 ， 所 以 还 需要 向 项 目 添加 一 个 用 于 处 理 数据 库 连 接 的 包 。 在 
pom. xml 文件 中 添加 如 下 代码 : 
<dependency> 
<groupl d>mysql </groupl d> 
<artifactld>mysql-connector-java</artifactld> 
<version>5.1.35</version> 
</ dependency> 
现在 , 我 们 已 经 把 需要 的 所 有 包 都 准备 好 了 ， 接 下 来 创建 连接 。 首 先 , 使 用 连接 详细 信息 初 
始 化 Dat a5our ce 类， 代码 如 下 : 
Mysql DataSource dbsource = new Mysql DataSource(); 
dbsource.setUser("user"), 
dbsource.setPassword("pass"); 
dbsource.setServerName("hostname.com") 
dbsource.setDatabaseName("db"),; 
Mahout 集 成 了 针对 各 种 数据 库 的 | DBCDat a Mo del 实现 , 使 得 我 们 可 以 通过 JDBC 访 问 这 些 数 
据 库 。 默 认 情 况 下 ， 这 个 类 假定 在 JNDI 名 称 | dbc/ taste 之 下 有 DataSource 可 用 ， 人 允许 我 们 使 
用 一 个 taste_preferences 表 访问 数据 库 ， 格 式 如 下 : 


CREATE TABLE taste preferences |( 
User id BIGINT NOT NULL, 
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item id BIGINT NOT NULL, 
preference REAL NOT NULL， 
PRI MARY KEY (user_id, item id) 
) 
CREATE | NDEX taste preferences user id index ON taste preferences 


(user_id); 
CREATE |NDEX taste preferences item id index ON taste preferences 
(item id)， 





对 数据 库 支 持 (database-backed ) 的 数据 模式 做 如 下 初始 化 。 除 了 DB 连接 对 象 之 外 , 还 可 以 
指定 自 定 义 的 表 名 与 表 列 名 ， 如 下 : 


DataModel dataModel = new MySQLJDBCDataModel (dbsource 
"taste_preferences'"， 
"user id "item id", "preference", "timestamp") 


3. 内 存 数据 库 


最 后 , 数据 模型 也 可 以 在 内 存 中 动态 创建 并 保存 。 可 以 从 一 个 用 户 偏好 数组 创建 数据 库 , 这 
个 偏好 数组 保存 着 用 户 对 一 组 项 目的 评分 。 


整个 创建 过 程 如 下 : 首先 ， 创建 一 个 Fast Byl dMap 散 列 表 ， 它 映射 到 存储 一 组 用 户 偏好 的 
数组 preferenceArray。 














FastByl DMap <PreferenceArray> preferences = new FastBylDMap 
<PreferenceArray> (); 


接 下 来 ,为 用 户 新 建 一 个 偏好 数组 ， 存 储 用 户 评 分 。 初 始 化 这 个 数组 时 ， 必 须 给 出 占用 内 存 
大 小 的 参数 。 


Pref erenceArray prefsForUserl = 
new GenericUserPpreferenceArray (10); 


接 下 来 ,为 当前 偏好 (0 号 位 置 ) 设置 用 户 ID。 其 实 ， 这 将 为 所 有 偏好 设置 用 户 ID。 
prefsForuUserl.setuUserlD (0，1L)， 

为 当前 俩 好 〈0 号 位 置 ) 设置 项 目 ID。 

prefsForuserl,setltemD (0, 101L); 

为 当前 偏好 (0 号 位 置 ) 设置 偏好 值 。 

prefsForuUserl.setyalue (0, 3.0f); 

继续 为 用 户 设 置 其 他 项 目 : 


prefsForUser1l.setltemD (1, 1021) 
prefsForUser1.setValue (1, 4.5F); 


最 后 ， 添 加 用 户 偏好 到 散 列 映射 : 
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preferences.put (1L, prefsForUser1); JuserlD 用 作 键 
接着 ,使 用 偏好 散 列 映射 初始 化 GenericDataModel : 
DataModel dataModel = new GenericDataModel (preferences); 


上 述 代 码 演示 了 如 何 为 一 个 用 户 添加 两 个 偏好 , 然而 在 实际 应 用 中 , 可 能 需要 为 多 个 用 户 添 
加 多 个 偏好 。 





6.3.3 协同 过 滤 
可 以 使 用 Mahout 中 的 or g. apache, mahout, cf,taste 包 创建 推荐 引擎 , 这 个 包 之 前 是 一 个 
名 叫 Taste 的 单独 项 目 ， 现 已 并 和 人 Mahout 中 被 继续 开发 。 


基于 Mahout 的 协同 过 滤 引 擎 接收 用 户 对 某 些 项 目的 偏好 ( 嗜好 )， 返 回 用 户 可 能 喜欢 的 其 他 
项 目 。 比 如 ， 一 个 销售 图 书 或 CD 的 网 站 使 用 Mahout 后 ， 可 以 很 轻松 地 根据 顾客 以 往 的 购物 数据 
找 出 他 们 可 能 感 兴趣 的 CD。 


下 面 这 几 个 关键 抽象 在 顶级 包 中 都 定义 有 相应 的 Mahout 接 口 。 


口 DataModel: 表示 与 用 户 及 其 项 目 偏好 相关 的 信息 仓库 。 

口 UserSimilarity: 定义 两 个 用 户 之 间 的 相似 度 。 

口 ItemSimilarity: 定义 两 个 项 目 之 间 的 相似 度 。 

口 UserNeighborhood: 为 给 定 用 户 计算 邻近 用 户 。 

口 Recommender: 为 用 户 推 荐 项 目 。 

图 6-5 显 示 了 这 些 概念 的 总 体 结构 。 

1. 基于 用 户 的 过 滤 

通过 初始 化 前 面 提 到 的 组 件 , 可 以 实现 一 个 最 基本 的 基于 用 户 的 协同 过 滤器 , 具体 步 又 如 下 。 


首先 ， 加 载 数据 模型 : 


Stringlteml dFileDataModel model = new ee 
new File("/datasets/chap6/BX-Book-Ratings.csv", ";"); 


接着 ， 定 义 计算 用 户 关 联 性 的 方法 ， 比 如 使 用 皮尔 逊 相关 系数 : 


UserSimilarity simlarity = 
new PearsonCorrelationoimlarity(model)， 
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图 6-5 ”关键 抽象 总 体 结构 
然后 ， 定 义 如 何 指出 哪些 用 户 是 相似 的 ， 即 评分 彼此 相近 的 用 户 。 


UserNeighborhood neighborhood = 
new Threshol dUserNei ghborhood(0.1, similarity, model); 


接 下 来 ， 使 用 数据 模型 、 邻 居 、 相 似 对 象 初始 化 GenericUserBasedRecommender 默认 引 
擎 ， 代 码 如 下 : 


UserBasedRecommender recommender = 
new GenericUserBasedRecommender (model, neighborhood, similarity); 
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以 上 就 是 全 部 代码 , 至 此 , 第 一 个 最 基本 的 推荐 引擎 就 做 好 了 。 下 面 讨论 应 该 如 何 调用 推荐 
引擎 。 首 先 ， 打 印 用 户 已 经 评分 的 项 目 ， 以 及 提供 给 这 位 用 户 的 10 个 推荐 项 目 。 


80683; 
1.06 





long userlD 
int noltems 


List<Recommendedltem> recommendations = recommender.recommend! 
userlD, noltems) 


System.out.println("Rated items by user:"); 
for(Preference preference : model.getPpreferencesFromUser(userlD)) { 
I|l convert long itemlD back to |SBN 
String iteml SBN = model .getlteml DAsStringl 
pref erence.getltemlD()) 
System.out.println("lItem " + books. get(iteml SBN) + 
" | Item id: " + iteml SBN + 
" | Value: " + preference.getValuel()) 











} 


System.out.println("\nRecommended items:") 











for (Recommendedltem item: recommendations) { 
String iteml SBN = model .getlteml DAsString(item.getltemlD()) 
System.out.println("ltem " + books. get(iteml SBN) + 
" | lItem id: " + iteml SBN + 
”| Value: " + item.getValue()) 
} 
上 面 代码 输入 如 下 推荐 项 目 及 其 分 数 : 
Rated items: 


Item: The Handmaid's Tale | ltem id: 0395404258 | Value: 0.0 

Item: Get Clark Smart : The Ultimate Guide for the Savvy Consumer | Itemid: 1563526298 
| Value: 9.0 

Item: Plum lsland | lItem id: 0446605409 | Value: 0.0 

Item: Blessings | ltem id: 0440206529 | Value: 0.0 

Item: Edgar Cayce on the Akashic Records: The Book of Life | ltemid: 0876044011 | Val ue: 
0.0 

Item: Winter Moon | lItem id: 0345386108 | Value: 6.0 

Item: Sarah Bishop | ltem id: 059032120X | Value: 0.0 

Item: Case of Lucy Bending | lItem id: 0425060772 | Value: 0.0 

Item: A Desert of Pure Feeling (Vintage Contemporaries) | Itemid: 0679752714 | Value: 


0.0 
Item: White Abacus | ltem id: 0380796155 | Value: 5.0 
Item: The Land of Laughs : A Novel | ltem id: 0312873115 | Value: 0.0 


Item: Nobody's Son | ltem id: 0152022597 | Value: 0.0 

Item: Mirror lmage | Item id: 0446353957 | Value: 0.0 

Item: All | Really Need to Know | ltem id: 080410526X | Value: 0.0 

Item: Dreamcatcher | ltem id: 0743211383 | Value: 7.0 

Item: Perplexing Lateral Thinking Puzzles: Scholastic Edition | Item id: 0806917695 
| Value: 5.0 

Item: Obsidian Butterfly | ltem id: 0441007813 | Value: 0.0 


Recommended items' 
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tem: 
tem: 
tem: 
tem: 
tem: 
tem: 
tem: 
tem: 
tem: 
tem: 


Keeper of 
Bleachers 
Salem's 上 
The Gir 

Mind Prey 
lt Came F 


The Talis 
Haml et | 
Untamed 


the Heart | ltem id: 0380774933 | Value: 10.0 
| ltem id: 0385511612 | Value: 10.0 

ot | ltem id: 0451125452 | Value: 10.0 

Who Loved Tom Gordon | ltem id: 0671042858 
| ltem id: 0425152898 | Value: 10.0 


rom The Far Side | ltem id: 0836220730 


Value: 10,0 


Value: 10.0 


Faith of the Fallen (Sword of Truth, Book 6) | Item id: 081257639X | Value: 10,0 


Val ue: 9.86375 
9,708363 
9,708363 


man 
Item id: 
Item id: 


Item id: 0345444884 
067172262X | Value: 
0380769530 | Value: 


2. 基于 项 目的 过 滤 
项 目 相似 性 〈ItemSimilarity ) 是 接 下 来 要 讨论 的 重点 。 基 于 项 目的 推荐 器 很 有 用 ， 因 为 它 


们 能 够 充分 利 月 























项 目 本 身 之 间 的 关系 : 它们 将 计算 建立 在 项 目的 相似 性 而 非 用 户 的 相似 性 之 上 ， 














项 目的 相似 性 是 相对 稳定 的 。 项 目的 相似 性 可 以 预先 计算 ， 不 需要 实时 重新 计算 。 


因此 ， 如 果 打 算 使 用 ItemSimilarity 这 个 类 ， 强 烈 





建议 使 用 Genericltem5imilarity 类 , 这 


个 类 可 以 预先 计算 项 目的 相似 性 。 也 可 以 使 用 pearsonCorrelationSimilarity 类 , 这 个 类 会 
实时 计算 相似 性 。 但 对 于 大 量 数据 ， 你 会 发 现 它 的 计算 速度 慢 得 让 人 难以 忍受 。 
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ltem id: 








item: Close to the Bone 


ems: 
creening | 
e | ltem id: 


Value: 1.0 


1.0 


ltem id: 0345311396 
0553569783 | Value' 
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Item: Clockers / Movie Tie In | lItem id: 0380720817 | Value: 1.0 

Item: Rules of Prey | ltem id: 0425121631 | Value: 1.0 

Item: The Next President | ltem id: 0553576666 | Value: 1.0 

Item: Orchid Beach (Holly Barker Novels (Paperback)) | ltem id: 0061013412 | Value: 


Item: Winter Prey | ltem id: 0425141233 | Value: 1.0 

Item: Night Prey | ltem id: 0425146413 | Value: 1.0 

Item: Presumed lnnocent | ltem id: 0446359866 | Value: 1.0 

Item: Dirty Work (Stone Barrington Novels (Paperback)) | Item id: 
0451210158 | Value: 1.0 


述 输出 结果 中 ， 可 以 看 到 输出 的 一 组 项 目 与 我 们 选择 的 特定 项 目 是 相似 的 。 
3. 添加 自 定义 规则 到 推荐 引 | 擎 擎 


我 们 经 常会 遇 到 这 样 的 问题 : 一 些 业 务 规 则 需要 提高 所 选项 目的 分 数 。 比 如 , 图 书 数据 集中 新 
到 了 一 本 书 ， 我 们 想 给 它 一 个 更 高 的 分 数 。 对 此 ， 可 以 使 用 DRes cor er 接口 实现 完成 这 个 任务 。 


口 rescore(long, double): 从 参数 接收 itemID 与 原始 分 数 ， 返 回调 整 后 的 分 数 。 
D isFiltered(long): 若 推荐 不 包含 指定 项 目 ， 则 返回 true， 否 则 返回 false。 


对 于 我 们 的 示例 ， 可 做 如 下 实现 : 


class MyRescorer implements |DRescorer { 




















public double rescore(|long itemld, double original Score) { 
double newScore = original Score,; 
if(booklsNew(itemd))t{ 

original Score *= 1.3, 


return newScore; 


public boolean isFiltered(1ong arg0) { 
return false; 





} 
调用 recommender ,recommend 时 ， 返 回 一 个 | DRescorer 实例 : 


IDRescorer rescorer = new MyRescorer!(); 
List<Recommendedltem> recommendations = 
recommender.recommend(userlD, noltems, rescorer); 


4. 评估 


你 可 能 想 知 道 , 如 何 才能 保证 推荐 引 苟 返回 的 推荐 项 目 是 靠 谱 的 。 准确 检测 推荐 有 效 程度 的 
唯一 方法 就 是 ,在 拥有 实际 用 户 的 真实 系统 中 做 A/B 测 试 。 比 如 ，A 组 收 到 一 个 随机 推荐 的 项 目 ， 
而 B 组 收 到 我 们 的 推荐 引擎 推荐 的 项 目 。 
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由 于 这 并 非 总 是 可 行 的 ,也 不 实际 ,所 以 可 以 使 用 脱 机 统计 评估 进行 估计 。 一 种 方法 是 使 用 
第 1 章 介绍 的 k 折 交叉 验证 。 将 数据 集 分 成 多 个 子 集 ， 其 中 一 些 用 来 训练 我 们 的 推荐 引擎 ， 其 余 的 
测试 它 对 未 知 用 户 的 推荐 效果 。 


Mahout 实 现 了 RecommenderEval uator 类 ， 这 个 类 将 一 个 数据 集 划 分 成 两 部 分 ， 第 一 部 分 
默认 为 数据 的 90%， 用 于 生成 推荐 ， 其 余部 分 则 与 评估 的 偏好 值 做 比较 ， Oe 这 个 
类 不 直接 接受 re commender 对 象 ， 需要 创建 一 个 类 实现 Recommender Bui1der 接口 ， 它 为 一 个 
给 定 的 Dat a Model 对 象 ( 稍 后 用 于 测试 ) 创建 一 个 recommender 对 象 。 接 下 来 ， 让 我 们 看 看 如 
何 实现 。 


























首先 , 创建 一 个 实现 RecommenderBui1der 接口 的 类 。 需要 实现 bui | dRecommender 方法， 
它 会 返回 一 个 recommender ， 如 下 所 示 : 


public class BookRecommender impl ements RecommenderBuilder { 
public Recommender buildRecommender (DataModel dataModel) { 
UserSimilarity simlarity = 
new PearsonCorrelationSimilarity(model),; 
UserNeighborhood neighborhood = 
new Threshol dUserNei ghborhood(0.1, similarity, model); 
UserBasedRecommender recommender = 
new GenericuUserBasedRecommender 
model, neighborhood, similarity) 
return recommender 
} 
} 


有 了 返回 recommender 对 象 的 类 后 ,我 们 就 可 以 对 Re commenderEval uator 的 实例 做 初始 
化 。 这 个 类 的 默认 实现 是 AverageAbsol uteDifferenceRecommenderEval uator 类， 用 于 在 
用 户 的 预测 评分 与 实际 评分 之 间 计 算 平均 绝对 差 值 ,下面 代 码 显 示 了 如 何 将 上 面 这 些 内 容 组 合 在 
一 起 ， 以 进行 Hold-Out 测 试 。 


首先 ， 加 载 数 据 模型 ; 


DataModel dataModel = new FileDataModel 
new File("/path/to/dataset.csv")); 


接着 ,初始化 eval uat or 实例 : 


RecommenderEval uator eval uator = 
new AverageAbsol uteDifferenceRecommenderEval uator(); 




















初始 化 B00kRecommender 对 象 ， 实 现 RecommenderBuilder 接口 : 
RecommenderBuilder builder = new MyRecommenderBuilderl()， 


最 后 ， 调 用 eval uatel ) 方法 ， 该 方法 接收 如 下 参数 。 
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口 RecommenderBuilder : 该 对 象 实现 了 RecommenderBuilder ， 用 于 创建 待 测试 的 
recommender。 
口 DataModelBuilder :要 使 用 的 DataModelBuilder ， 若 为 null， 将 使 用 默认 的 DataModel 
实现 。 

口 Dat aModel : 用 于 测试 的 数据 集 。 

Ditrainingpercentage: 表示 生成 推荐 的 每 个 用 户 偏好 所 占 的 比例 ， 其 他 的 则 与 估计 的 
偏好 值 做 比较 ， 以 评估 recommender 的 性 能 。 

Devaluationpercentage: 评估 中 参与 的 用 户 在 数据 模型 中 所 占 的 比例 。 


eval uate() 方 法 调用 如 下 : 


double result = evaluator.evaluate(builder, nul|l, model, 0.9, 
1.0); 
System.out.println(result); 
evaluatel ) 方 法 返回 一 个 double 值 , 0 表示 评估 结果 最 佳 , 表明 推荐 器 完美 匹配 用 户 偏 好 。 
一 般 来 说 ， 值 越 小 ， 匹 配 得 越 好 。 


5. 在 线 学 习 引 警 


在 线 学 习 引 擎 中 的 “在 线 ” 两 字 是 什么 意思 呢 ? 上 面 讲 到 的 推荐 引擎 对 于 已 有 的 用 户 有 很 好 
的 工作 效果 , 但 对 于 那些 新 注册 的 用 户 推荐 效果 不 佳 。 我们 肯定 也 想 为 这 些 新 用 户 做 一 些 合理 的 
推荐 。 创 建 一 个 推荐 实例 代价 很 大 ( 它 肯 定 比 一 个 普通 的 网 络 请 求 需要 花 更 长 时 间 )， 因 此 不 能 
每 次 都 创建 一 个 新 推荐 。 


滁 运 的 是 ，Mahout 允 许 我 们 向 数据 模型 添加 临时 用 户 。 一 般 设置 如 下 : 


口 使 用 当前 数据 定期 重建 整个 推荐 ， 比 如 每 天 或 每 小 时 ， 具 体 取 决 于 耗费 多 长 时 间 。 
口 做 推荐 时 ， 检 查 系统 中 是 否 有 这 个 用 户 。 
口 若 有 ， 像 往常 一 样 结束 推荐 。 
口 若 没 有 ， 则 创建 临时 用 户 ， 填 和 人 偏好 ， 并 做 推荐 。 

如 果 你 的 内 存 有 限 ， 第 一 部 分 (定期 重建 推荐 器 ) 其 实 很 难 办 到 : 创建 新 推荐 器 时 ， 你 需要 
在 内 存 中 保留 数据 的 两 个 副本 〈 为 了 可 以 处 理 来 自 旧 推荐 器 的 请 求 )。 然 而 ， 由 于 这 对 推荐 真 的 
没什么 用 ， 所 以 就 不 细 讲 了 。 

对 于 临时 用 户 ， 可 以 使 用 一 个 Pl usAnonymousConcurrent UserDat aModel 类 实例 包装 我 
们 的 数据 模型 。 这 个 类 允许 获得 一 个 临时 用 户 ID ， 以 后 必须 释放 这 个 ID ， 以 便 可 以 重用 ( 这样 的 
ID 数目 是 有 限制 的 )。 得 到 ID 后 ， 必 须 填写 偏好 ， 然 后 可 以 像 以 前 一 样 开始 推荐 : 


class OnlineRecommendationtf 




















































































































Recommender recommender 
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int concurrentUsers = 100 
int noltems = 10; 


public OnlineRecommendation() throws |OException { 


DataModel model = new Stringlteml dFi|leDataModel 
new File /chap6/BX-Book-Ratings.csv"), ";"); 
PlusAnonymousConcurrentUserDataModel plusModel = new 


PlusAnonymousConcurrentUserDataMode 
(model, concurrentUsers); 
recommender = ...; 


} 


public List<Recommendedltem> recommend(long userld, 
Pref erenceArray preferences){ 


if(userExistslnDataModel (user|ld))f{ 
return recommender.recommend(userld, noltems) 


} 
elsef 


PlusAnonymousConcurrentUserDataModel plusModel = 
(PlusAnonymousConcurrentUserDataModel 
recommender, getDataModel()， 


11 从 p011 获取 一 个 可 用 的 匿名 用 户 
Long anonymousUserlD = plusModel,takeAvailableuUserl()， 


11 设置 临时 偏好 

Pref erenceArray tempPrefs = preferences 
tempPprefs.setUserlD(0, anonymousUserlD); 
tempPprefs.setltemD(0, itemlD) 

plusModel ,setTempprefs(tempprefs，anonymousuUserlD)， 


List<Recommendedltem> results = 
recommender.recommend(anonymousUserlD, noltems) 


11 释放 用 户 到 poll 
plusModel releaseuUser(anonymousUserlD)， 


return results 
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6.4 基于 内 容 的 过 滤 








Mahout 框 架 不 包含 基于 内 容 的 过 滤 ， 主 要 是 因为 , 如何 定义 相似 项 目 是 由 你 自己 决定 的 。 如 





果 想 定义 一 个 基于 内 容 的 项 目 到 项 目 相似 度 ， 需 要 实现 自己 的 ltemSsimilarity。 比 如 , 我 们 的 








图 书 数据 集中 ， 针 对 图 书 相似 度 ， 可 能 制定 如 下 规则 . 


口 若 类 型 相同 ， 则 将 相似 度 加 0 15 ; 
口 若 作者 相同 ， 则 将 相似 度 加 0. 50 。 





下 面 实现 我 们 自己 的 相似 度 测度 ， 如 下 : 


class MyltemSimilarity impl ements ltemSimilarity { 


public double itemSimilarity(long iteml D1, long iteml D2) { 
MyBook bookl = lookupMyBook (iteml D1) 
MyBook book2 = lookupMyBook (iteml D2) 


double similarity = 0.0; 


if (bookl.getGenre().equals(book2.getGenrel()) 


similarity += 0.15; 
} 


if (bookl.getAuthor().equals(book2 


Similarity += 0.50 
} 
return similarity; 


} 





i 





getAuthor ())) { 


然后 ， 使 用 这 个 | tem5i mi 1 ari ty 替换 LogLikelihood5imi1arity 或 其 他 6enericltem- 
Based Recommender 的 实现 。 以 上 就 是 在 Mahout 框 架 中 做 基于 内 容 的 推荐 。 


此 处 给 出 的 示例 是 基于 内 容 推荐 的 一 种 最 简单 的 形式 。 还 有 一 种 方法 可 以 用 来 创建 基于 内 容 
的 用 户 画 像 (content-based profile of users )， 它 建立 在 项 目 特征 的 加 权 向 量 基础 之 上 。 权 重 表示 
每 个 特征 对 于 用 户 的 重要 程度 ， 这 可 以 从 单独 评分 的 内 容 向 量 计算 出 来 。 











6.5 小结 

















本 章 学 习 了 推荐 引擎 的 基本 概念 、 协 同 过 滤 与 基于 内 容 的 过 滤 之 间 的 不 同 ， 以 及 如 何 使 用 





Apache Mahout。 它 是 创建 推荐 器 的 基础 


匡 架 








， 拥 有 良好 的 可 配置 性 ， 并 且 提供 大 量 扩展 点 。 此 








外 还 学 习 了 如 何 选 择 正确 的 配置 参数 值 、 建 立 分 值 重 计算 ， 并 对 推荐 结果 进行 评估 。 
本 章 应 用 数据 科学 技术 分 析 顾 客 行为 , 先 用 了 第 4 章 中 讲解 的 客户 关系 预测 , 然后 使 用 了 第 5 





章 中 的 关联 分 析 。 下 一 章 将 继续 学 习 男 一 主题 一 一 欺诈 与 异常 检测 。 


























异常 检测 〈outlier detection ) 用 于 识别 异常 、 罕 见 事件 或 其 他 反常 情况 。 查 找 这 样 的 异常 就 
像 大 海 捞 针 , 但 它们 可 能 招致 令 人 相当 震惊 的 后 果 ， 比 如 信用 卡 欺诈 检测 、 网 络 入侵 识 别 、 制 造 
工艺 缺陷 、 临 床 试验 、 投 票 活 动 、 电 子 商务 犯罪 。 因 此 ， 及 时 发 现 这 些 异 常 可 能 避免 巨大 损失 。 
应 用 机 器 学 习 检 测 异 常 问题 会 带 来 新 的 发 现 , 并 且 能 够 得 到 更 好 的 异常 事件 检测 效果 。 机 器 学 习 
能 够 考虑 许多 不 同 的 数据 来 源 ， 并 找到 人 类 分 析 时 难以 发 现 的 关系 。 


以 电子 商务 欺诈 检测 为 例 ,通过 适当 应 用 机 器 学 习 算 法 ,进行 欺诈 检测 时 ,我们 可 以 把 购物 
者 的 在 线 行为 ( 即 网 站 浏览 历史 ) 列 入 欺诈 检测 算法 的 考察 对 象 , 这 样 判断 时 考虑 的 因素 更 全 面 ， 
而 不 只 是 简单 地 考虑 持 卡 者 的 购物 历史 。 这 包括 分 析 各 种 数据 源 ， 对 电子 商务 欺诈 检测 而 言 , 它 
还 是 一 种 更 加 稳健 的 方法 。 

本 章 涵 盖 如 下 主题 : 
口 问题 与 挑战 
口 可 疑 模 式 检测 
口 异常 模式 检测 
口 使 用 不 平衡 数据 集 
口 时 序 中 的 异常 检测 



































7.1 可 疑 与 异常 行为 检测 


从 传 感 咒 数据 学 习 模式 的 问题 会 出 现在 许多 应 用 场合 , 包括 电子 商务 、 智 能 环境 、 视 频 监控 、 
网 络 分 析 、 人 机 交互 、 环 境 辅助 智能 系统 等 。 我 们 的 重点 是 检测 那些 有 悖 于 常规 行为 的 模式 ， 它 
们 可 能 是 安全 风险 、 健 康 问 题 或 者 其 他 任何 异常 行为 偶发 事件 。 


换言之 ,异常 行为 是 一 种 数据 模式 ， 它 要 人 么 与 期 望 的 行为 不 符 ( 异常 行为 )， 要 么 是 一 个 先 
前 定义 的 不 希望 发 生 的 行为 (可疑 行为 )。 异常 行为 模式 包括 异常 值 (outlier )、 异 常 ( exception )、 
特性 (peculiarity )、 意 外 (surprise )、 滥 用 ( misuse ) 等 。 相 对 而 言 ， 这 些 模 式 并 不 会 经 常 出 现 ， 
但 确实 在 某 些 时 候 会 出 现 ， 有 可 能 产生 令 人 吃惊 的 后 果 , 并 且 这 些 后 果 一 般 都 是 负面 的 。 典 型 的 
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例子 有 信用 卡 欺 诈 检 测 、 网 络 人 侵 、 工 业 破 坏 。 电子 商务 中 , 欺诈 给 商人 造成 的 损失 每 年 超过 200 
亿美 元 ; 在 医疗 保健 领域 ,欺诈 每 年 耗 掉 纳税 人 60 亿 美元 的 税 费 ; 在 银行 领域 , 欺诈 造成 的 损失 
超过 12 亿 美元 。 





未 知 的 未 知 


2002 年 2 月 12 日 ， 时 任 美 国 国防 部 长 唐纳德 ， 拉 姆 斯 菲尔德 在 召开 的 新 闻 发 布 会 上 称 ， 没 有 
证 据 表 明 伊拉克 政府 向 恐怖 分 子 提供 了 大 规模 杀伤 性 武器 。 这 立刻 引发 了 人 们 的 热 议 。 拉 姆 斯 菲 
尔 德 声称 (DoD News，2012 )， 









































“那些 对 还 未 发 生 的 事 所 做 的 报道 总 能 引起 我 们 的 兴趣 ， 正 如 我 们 知道 ， 有 些 事情 
大 家 都 知道 (known knowns )， 即 有 些 事情 我 们 知道 我 们 知道 。 我 们 也 都 知道 有 些 事情 
我 们 不 知道 (known unknowns )， 那 就 是 说 ， 我 们 知道 有 些 事情 我 们 不 知道 。 但 也 有 些 
事情 我 们 都 不 知道 (unknown unknowns )， 就 是 那些 我 们 不 知道 我 们 不 知道 的 事情 。 纵 
观 我 们 国家 与 其 他 自由 国家 的 历史 可 以 发 现 ， 后 面 那些 往往 是 最 难 的 。 


乍 看 上 去 ， 这 段 声 明 可 能 有 点 绕 ， 但 是 “未 知 的 未 知 ”( unknown unknowns ) 这 个 想法 在 处 
图 风险 的 专家 、NSA 和 其 他 情报 机 构 中 得 到 深入 研究 。 上 面 这 段 声明 基本 意思 如 下 。 


口 已 知 的 已 知 (Known-knowns ): 这 些 问 题 已 为 我 们 所 熟知 ， 我 们 知道 如 何 辨 认 它 们 ， 也 
知道 如 何 处 理 它们 。 

口 已 知 的 未 知 (Known-unknowns ): 这 些 问题 可 以 预料 或 预见 到 , 我 们 可 以 做 出 合理 预测 ， 
但 是 它们 之 前 从 未 发 生 过 。 

口 未 知 的 未 知 (Unknown-unknowns ): 这 些 问 题 是 不 可 预料 的 ， 也 无 法 预见 ， 我 们 不 能 
据 以 往 经 验 做 预测 ， 它 们 将 我 们 置 于 重大 风险 之 中 。 


接 下 来 ,我 们 将 学 习 两 种 处 理 前 两 种 已 知 与 未 知 的 基本 方法 : 可 疑 模式 检测 〈 处 理 已 知 的 已 
知 ) 与 异常 模式 检测 ( 处 理 已 知 的 未 知 )。 
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7.2 可 疑 模 式 检 测 


第 一 种 方法 假设 有 一 个 行为 库 ， 它 对 图 7-1 中 用 减 号 表示 的 负 模式 (negative pattern ) 进行 编 
码 。 这 样 ， 识 别 被 观察 行为 就 转换 成 从 库 中 找 出 一 个 对 应 的 匹配 。 如 果 发 现 一 个 新 模式 ( 圆圈) 
与 负 模式 不 匹配 ， 那 么 就 把 这 个 新 模式 看 作 是 可 疑 的 。 

比如 ， 你 生病 看 医生 时 ， 针 对 病情 ， 她 会 检查 各 种 症状 ( 体温 、 疼 痛 程 度 、 影 响 范围 等 ) 
然后 将 这 些 症状 与 已 知 的 疾病 进行 匹配 。 使 用 机 器 学 习 的 术语 来 说 就 是 ， 医生 收集 属性 ， 并 做 分 
类 处 理 O 
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图 7-1 可疑 模式 检测 
这 个 方法 的 优点 在 于 , 我 们 可 以 立刻 知道 问题 是 什么 。 假 如 我 们 了 人 解 那 种 疾病 ,就 能 给 出 合 
适 的 治疗 方法 。 
这 个 方法 的 主要 缺点 是 , 它 只 能 检测 到 那些 我 们 事先 已 经 知道 的 可 颖 模式 。 如 果 一 个 模式 在 
负 模 式 库 ( negative pattern library ) 中 不 存在 ,那么 将 无 法 识别 。 因 此 ， 这 个 方法 适合 为 那些 “已 
知 的 已 知 ” 建 模 。 




















7.3 ”异常 模式 检测 


第 二 个 方法 是 以 相反 的 方式 使 用 模式 库 ， 即 模式 库 只 对 正 模式 ( 图 7-2 中 的 加 号 ) 做 编码 。 
当 一 个 被 观察 的 行为 ( 圆圈 ) 与 模式 库 中 的 所 有 模式 都 不 匹配 时 ， 就 会 被 视 作 异 常 。 
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图 7-2 异常 模式 检测 


这 个 方法 只 需要 我 们 为 过 去 所 见 建 模 ， 即 为 那些 正常 模式 ( normal patterns ) 建 模 。 回 到 看 
病 的 例子 , 我 们 之 所 以 去 看 医生 主要 是 因为 感觉 自己 身体 不 舒服 。 生 病 时 的 感觉 ( 比如 头痛 、 疼 
痛 ) 与 平时 的 感觉 不 一 样 ， 所 以 我 们 才 决 定 去 看 医生 。 我们 不 知道 什么 疾病 引起 了 这 些 症状 , 也 
不 知道 该 如 何 治 疗 ， 但 我 们 能 明显 感觉 到 这 与 平时 的 感觉 完全 不 一 样 。 


这 个 方法 的 主要 优点 是 ， 它 不 需要 我 们 提 及 非 正 常 模 式 (non-normal patterns )， 因 此 很 适合 
用 来 为 “已 知 的 未 知 ”与 “未 知 的 未 知 ” 建 模 。 另 一 方面 ， 这 个 方法 不 能 准确 指出 问题 是 什么 。 





















































7.3.1 分 析 类 型 


不 管 怎样 ,我们 有 多 种 方法 可 以 进行 类 型 分 析 。 如 下 3 种 类 型 (模式 分 析 、 事 务 分 析 、 规 划 
识别 ) 中 ,我 们 会 对 异常 与 可 疑 行 为 检测 做 大 致 分 类 。 接 下 来 , 我 们 将 快速 了 解 一 些 实际 生活 中 
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的 应 用 程序 。 

模式 分 析 

基于 视觉 方式 〈 比如 摄像 机 )， 根 据 行为 模式 做 异常 与 可 疑 行为 检测 是 一 个 在 计算 视觉 研究 
中 相对 活路 的 领域 。2007 年 ，Zhang 等 人 提出 了 一 个 系统 ， 根 据 视频 序列 做 人 体 运 动 视觉 分 析 ， 
它 可 以 根据 步 态 轨迹 识别 异常 行为 ，2009 年 ，Lin 等 人 描述 了 一 个 基于 颜色 特征 、 距 离 特 征 、 计 
数 特征 的 视频 监控 系统 , 使 用 演化 技术 度量 观察 的 相似 性 。 该 系统 追踪 每 个 人 , 分 析 他 们 的 轨迹 
模式 , 进而 对 其 行为 进行 分 类 。 这 个 系统 会 从 图 像 的 不 同 部 分 抽取 一 组 低层 视觉 特征 , 使 用 SVM 
算法 进行 分 类 ， 以 检测 用 户 的 攻击 、 快 乐 、 醉 酒 、 焦 虑 、 中 立 、 疲 倦 行为 。 


























7.3.2 事务 分 析 


不 同 于 连续 观察 ,事务 分 析 关 注 的 是 离散 状态 与 事务 ， 主 要 人 研究 领域 是 入 侵 检测 (ID ), 一 
般 目 标 是 检测 那些 攻击 信息 系统 的 入侵 行为 。ID 系 统 主要 分 为 两 种 类 型 ， 一 种 是 基于 特征 的 
( signature-based )， 男 一 种 是 基于 异常 的 ( anomaly-based )。 如 前 所 述 ， 它 主要 应 用 于 可 疑 与 异常 
模式 检测 。 如 果 想 进一步 了 解 有 关 ID 的 内 容 ， 建 议 阅读 Gyanchandani 等 人 2012 年 合 写 的 图 书 。 


而 且 , 环境 辅助 智能 系统 中 ,基于 可 穿戴 传感器 的 应 用 也 适应 于 事务 分 析 ， 因 为 感知 通常 是 
基于 事件 的 。2008 年 ，Lymberopoulos 等 人 提出 了 一 个 从 用 户 家 中 设置 的 传感器 网 络 自 动 提取 用 
户 时 序 斑 图 ( spatio-temporal patterns ) 的 系统 ， 这 些 时 序 斑 图 被 编码 成 传感器 触发 ( sensor 
activations )。 他 们 提出 的 方法 基于 位 置 、 时 间 、 持 续 时 间 ， 能 够 使 用 Apriori 算 法 提取 频繁 模式 ， 
并 且 将 最 频繁 的 模式 编码 为 马尔 可 夫 链 。 另 一 个 相关 领域 是 隐 马 尔 可 夫 模 型 (Hidden Markov 
Models，HMM ，Rabiner，1989 )， 它 对 行为 序列 建 模 ， 广 泛 应 用 于 习惯 行为 识别 。 这 些 内 容 已 
经 超出 本 书 讨论 的 范围 ， 不 再 详 述 。 

















































































































7.3.3 规划 识别 


规划 识别 主要 关注 于 识别 智能 体 不 可 观测 状态 的 机 制 , 前 提 是 给 出 其 与 环境 交互 的 观察 结 
( AvrahamiZilberbrand，2009 )。 大 部 分 现存 的 调查 研究 都 认为 ， 行为 的 观察 结果 是 离散 的 。 为 了 
进行 异常 与 可 疑 行为 检测 , 规划 识别 算法 可 能 使 用 混合 方法 : 符号 规划 识别 器 可 以 用 于 筛选 一 致 
的 假设 ， 将 其 传递 给 一 个 注重 排名 的 评价 引擎 。 

这 些 先 进 方法 被 应 用 于 各 种 真实 生活 场景 ， 以 发 现 异 常 。 接 下 来 ,我们 将 学 习 更 多 用 于 检测 
可 疑 与 异常 模式 的 方法 。 

















7.4 保险 理赔 欺诈 检测 
首先 了 解 可 疑 行为 检测 , 它 的 目标 是 学 习 未 知 坎 诈 模式 , 这 些 模式 符合 “已 知 的 已 知 "模型 。 
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7.4.1 数据 集 


我 们 将 使 用 一 个 描述 保险 交易 的 数据 集 ， 可 以 在 Oracle Database Online Documentation 
(2015 ) 中 找到 它 ， 网 址 如 下 : 


http://docs.oracle.com/cd/B28359_01/datamine.111/b28129/anomalies.htm 


这 个 数据 集 描 述 了 一 个 未 公开 的 保险 公司 的 车 辆 事故 保险 理赔 情况 。 其 中 包含 15 430 个 理赔 
案例 ， 每 个 理赔 用 33 个 属性 进行 描述 : 


口 客户 详细 信息 〈 年 龄 、 性 别 、 婚 姻 状 况 等 ) 
口 购买 保单 〈 保单 种 类 、 车 辆 类 型 、 增 补 数 、 代 理 类 型 等 ) 

口 理赔 情况 〈 日 /月 / 周 理赔 ， 保 单 报告 归档 、 证 人 、 事 故 报告 间隔 日 期 、 事 故 理赔 等 ) 
口 其 他 客户 数据 ( 车 辆 数 、 上 一 次 理赔 、 司 机 评级 等 ) 

口 有 无 欺诈 (有 或 无 ) 


图 7-3 显 示 的 是 其 中 一 个 样本 ， 是 把 数据 加 载 到 Weka 之 后 显示 的 画面 。 


©Oae Weka Explorer 
Classify | Cluster | Associate | Select attributes | Visualize 












































Open file... Open URL... Open DB... Generate... | Undo | Edit... Save... 
Filter 
Choose | Discretize -B10 -M -1.0 -R16 |_Apply | 
Current relation Selected attribute 
Relation: claims-weka.filters.unsupervised.attribute.… Attributes: 33 Name: VehiclePrice Type: Nominal 
Instances: 15420 Sum of weights: 15420 Missing: 0 (0%) Distinct: 6 Unique: 0 (0%) 
Attributes No. Label Count Weight 
1 more than 69000 2164 2164.0 
All None Invert | Pattern | 2 20000 to 29000 8079 8079.0 
3 30000 to 39000 3533 3533.0 
No. Name 4 less than 20000 1096 1096.0 
7 口 Monthclaimed 5 40000 to 59000 461 461.0 
8[_ WeekOfMonthClaimed 6 60000 to 69000 87 87.0 
9 回 Sex 
10| JMaritalStatus 
12 [Faukt 
13 [DPolicyType 
Class: FraudFound_P (Nom) 二 Visualize All | 


14| |VehicleCategory 
(15| 图 Vehiclerice CT | 
16| JFraudFound_P 
17 DPolicyNumber 
18| JRepNumber 
19| JDeductible 
20 DriverRating 
21[ Days_Policy_Accident 
22 [Days_Policy_Claim 
23 DPastNumberOfClaims Si 
24|_ JAgeOfVehicle 


8073 


2164 


Remove 1036 
me 


Status 


log | 蛤 :0 
图 7-3 ”将 数据 加 载 到 Weka 
我 们 的 任务 是 创建 一 个 模型 ， 将 来 用 于 识别 可 疑 的 理赔 。 这 项 任务 面临 的 挑战 是 ， 这 些 索 
赔 中 只 有 6% 是 可 疑 的 。 如 果 我 们 创建 了 一 个 虚拟 分 类 器 ， 说 所 有 索赔 都 不 可 疑 ， 那 在 94% 的 索 
赔 案例 中 它 的 判断 都 是 对 的 。 因 此 ， 这 项 任务 中 ， 我 们 将 使 用 不 同 的 精确 度 测 量 方法 : 准确 率 
与 召回 率 。 
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回想 表 1-3， 表 格 中 有 4 种 可 能 的 结果 ， 分 别 是 真正 、 假 正 、 假 负 、 真 负 ， 由 此 可 推出 表 7-1。 
表 7-1 可 能 结果 的 可 能 分 类 




















非 炊 诈 
FN- 假 负 
TN- 真 负 









































准确 率 与 召回 率 定义 如 下 。 


口 准确 率 等 于 在 被 分 类 器 判定 为 正 的 所 有 样本 实例 (TP+FP ) 中 ， 正 确 判断 为 正 (TP ) 的 
正 例 样本 所 占 比 重 ， 如 下 : 








Re , 
TP+FP 
口 召回 率 等 于 在 总 正 例 样本 (TP+FN ) 中 ,被 正确 判定 为 正 ( TP ) 的 正 例 所 占 比 重 ， 如下: 
Re Ip 
TP+FN 





口 若 使 用 这 些 指 标 ， 我 们 的 虚拟 分 类 器 得 分 是 : Pr=0、Re=0， 因 为 它 从 不 会 将 任何 实例 标 
记 为 欺诈 (TP=0 )。 实 际 上 ， 我 们 希望 使 用 这 两 个 指标 评价 分 类 器 ， 即 F 值 ( F-measure )， 
它 是 一 种 在 准确 率 与 召回 率 之 间 计 算 调和 平均 数 的 方法 ， 如 下 : 


2*Pr* Re 
F 值 = 


接 下 来 ,继续 设计 一 个 真实 的 分 类 屁 。 











7.4.2 为 可 疑 模式 建 模 


为 了 设计 一 个 分 类 器 ， 我 们 将 遵循 第 1 章 讲 解 的 有 关 监 督学 习 的 标准 步骤 。 此 处 还 要 加 入 其 
他 一 些 步 又 , 以 处 理 非 平衡 数据 集 , 并 对 基于 准确 率 与 召回 率 的 分 类 模型 做 评估 。 详细 步骤 如 下 。 


口 加 载 .csv 格 式 的 数据 ; 
口 指派 分 类 属性 ; 
口 将 所 有 属性 从 数值 型 ( numeric ) 转换 为 名 义 型 (nominal )， 确 保 没有 错误 加 载 的 数值 ; 
口 Experiment 1: 使 用 k 折 交 又 验证 评价 模型 ; 

口 Experiment 2: 重新 调整 数据 集 ， 使 之 拥有 更 均衡 的 类 分 布 ， 并 且 手 动 交 又 验证 ; 

口 使 用 召回 率 、 精 确 率 与 F 值 评价 分 类 器 。 



































104 第 7 章 欺诈 与 异常 检测 











首先 ， 使 用 CSVLoader 类 加 载 数 据 ， 代 码 如 下 : 


String filepath = "/Users/bostjan/Dropbox/ML java 
Book/book/ datasets/chap07/claims,.csv" 


CSVLoader loader = new CSVLoader(); 
loader.setFieldSeparator(","); 

loader.setSource(new Filel(filepath 
Instances data = |oader.getDataSet 


然后 ， 确 保 所 有 属性 的 类 型 都 是 名 义 型 。 在 数据 导入 期 间 ，Weka 会 使 用 一 些 启 发 式 方法 猜 


























测 属性 最 有 可 能 的 类 型 ， 即 数值 型 、 名 义 型 、 字 符 串 型 、 日 期 型 。 由 于 启发 式 方法 并 非 总 能 正确 
猿 中 属性 类 型 ， 所 以 要 手动 设置 属性 类 型 ,代码 如 下 : 

















NumericToNominal toNominal = new NumericToNominal(); 
toNominal .setlnputFormat (data) 
data = Filter.useFfilter(data, toNominal); 


继续 下 一 步 之 前 ， 还 要 指定 待 预 测 的 属性 。 可 以 通过 调用 s et Cl asslndex(int) 函数 实现 。 


int CLASS | NDEX = 15; 
data.setClasslndex(CLASS_| NDEX) 


接着 ,人 别 除 一 个 描述 保单 编号 的 属性 ， 因 为 它 不 具有 预测 价值 。 只 要 简单 使 用 Re move 过 滤 









































器 即 可 移 除 。 


Remove remove = new Removel( )， 
remove.setlnputFormat (data) 

remove.setOptions(new String[]{"-R", ""+POLICY | NDEX}) 
data = Filter.useFilter(data, remove) 


以 上 就 是 建 模 的 准备 工作 。 
1. 纯 方法 
纯 方法 ( Vanilla approach ) 是 指 直接 应 用 第 3 章 介 绍 的 方法 ， 既 不 需要 做 预 处 理 ， 也 不 需要 








考虑 数据 集 具 体 细节 。 为 了 说 明 Vanilla 方 法 的 缺点 ， 我 们 将 创建 一 个 带 有 默认 参数 的 简单 模型 ， 


并 且 应 用 k 折 交叉 验证 。 


int ， 








首先 ， 添 加 要 测试 的 分 类 融 : 


ArrayList<Classifier>models = new ArrayList<Classifier>(); 
models.add(new J 48()); 
models.add(new RandomForest()); 
models.add(new NaiveBayes()); 
models.add(new AdaBoost M1()),; 
models.add(new Logistic()); 


然后 , 创建 一 个 Eval uati on 对象, 通过 调用 crossValidate(Classifier, lnstances, 
Random， String[]) 方 法 进行 折 交 又 验证， 最 后 输出 准确 率 、 召 回 率 与 F 值 。 
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FOLDS, 


Class().getName() + "\n'"t+ 


int FOLDS = 3; 
Eval uation eval = new Eval uation(data) 
for(Classifier model : models){ 
eval.crossValidateModel (model, data 
new Random(1), new String[] {}); 
System.out.println(model.ge 
"\tRecall: "+teval .recall (FRAUD) + "\n"+ 
"\tprecision: "+teval.precision(FRAUD) + "\n"+ 
"\tF-measure: "+teval.f Measure(FRAUD)}) 


} 
最 终 输 出 的 评估 分 数 如 下 : 


weka.classifiers.trees.)48 





Recall: 0,03358613217768147 
Precision: 0,9117647058823529 
F-measure: 0.06478578892371996 


weka.classifiers,functions,.Logygistic 


Recall: 0,037486457204767065 
Precision: 0,2521865889212828 
F-measure: 0.06527070364082249 


从 上 面 这 些 输出 可 以 看 到 ， 结 果 并 不 理想 。 





从 召回 率 (Recall ) 看 ， 所 有 欺诈 行为 中 ， 被 发 


现 的 其 诈 只 占 1%~3%。 也 就 是 说 ， 只 有 1~3/100 个 欺诈 能 被 检测 到 。 而 从 准确 率 ( Precision ) 来 
说 ， 报 警 准确 率 有 91%。 这 意味 着 申请 理赔 的 9/10 个 案例 中 ， 模 型 都 是 正确 的 。 


2. 数据 集 重 整 


由 于 相 比 于 正 例 ， 反 例 〈 即 欺诈 ) 数目 非常 少 ， 




















所 以 学 习 算 法 要 与 归纳 推理 做 “斗争 ”。 为 





帮助 算法 解决 这 个 问题 , 我 们 可 以 给 它们 一 个 数据 集 。 该 数据 集中 , 正 例 与 反例 的 比重 是 可 比 的 。 
也 就 是 说 ， 这 个 问题 可 以 通过 数据 集 重 整 ( Dataset rebalancing ) 得 到 解决 。 


Weka 有 一 个 内 置 的 过 滤器 Resample， 用 于 从 一 个 数据 集 随 机 抽 选 子 样本 ， 它 使 用 重 置 抽样 
或 不 重 置 抽样 。 这 个 过 滤 需 也 可 以 将 一 个 分 布 调整 为 类 均匀 分 布 。 


我 们 将 手工 实现 k 折 交 义 验证 。 首 先 ， 把 数据 集 均 等 地 分 成 x 折 ， 其 中 第 k 折 用 作 测 试 ， 其 他 
折 用 来 学 习 。 使 用 5tr at i fi edRemoveFolds 过 滤器 划分 数据 集 ,， 划分 后 的 各 折 中 仍然 保持 着 相 





























同 的 类 分 布 ， 如 下 : 


StratifiedRemoveFolds kFold = 
kFold.setlnputFormat(data) 


double measures[][] = 
for(int k = 1; 


k <= FOLDS,; k++){ 


11 把 数据 划分 为 测试 折 与 训练 折 














new StratifiedRemoveFolds(); 


new double[ models.size()][3]; 
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kFold.setOptions(new String[]t 
"-N", ""+FOLDS, Nb " "+k， 9 Ss 
Instances test = Filter.useFilter(data, kFold) 


kFold.setOptions(new String[]t 
"-N", ""+FOLDS, st " "+k， eG WU "-V"}); 
11 反选 -V 
Instances train = Filter.useFfilter(data, kFold) 


然后 ， 重 整训 练 数据 集 ，- 7 参数 指定 要 重 抽样 数据 集 的 比例 ，- 6 把 类 分 布 调整 成 均匀 分 布 : 


Resample resample = new Resampl el() 

resample.setlnputFormat (data) 

resample.setOptions(new String[]{"-2", "100", "-B", 1}); //with 
replacement 

Instances balancedTrain = Filter.useFilter(train, resample) 


接着 ,创建 分 类 器 并 做 评估 。 


for(Listlterator<Classifier>it = models.|listlterator(); 
it.hasNext();){ 




















Classifier model = it.next(); 

model .buildClassifier(balancedTrain); 
eval = new Eval uation(balancedTrain); 
eval .evaluateModel (model, test); 


1 1 为 计算 平均 数 保存 结果 








measures[it.previouslndex()][0] += eval.recall (FRAUD); 
measures[it.previouslndex()][1] += eval.precision(FRAUD); 
measures[it,previouslndex()][2] += eval.f Measure(FRAUD) 


} 
最 后 ， 计 算 平 均 数 ， 和 输出 最 佳 模 型 : 


/11 计算 平均 数 





Ne 





for(int i = 0; i < models.size(); i++){ 
measures[i][0] /= 1.0 * FOLDS 
measures[i][1] /= 1.0 * FOLDS; 
measures[i][2] /= 1.0 * FOLDS 
} 
11 输出 结果 ， 选择 最 佳 模型 
Classifier bestModel = null; double bestScore = -1 
for(Listlterator<Classifier> it = models.|listlterator() 
it,hasNext();){ 
Classifier model = it.next(); 


double fMeasure = measures[it.previouslndex()][2 

System.out.println( 
model .getClass().getName() + "\n"+ 
"\tRecall: "+measures[it,previouslndex()][0] + "\n"+ 
"\tprecision: "+measures[it.,previouslndex()][1] + "\n"+ 
"\tF-measure: "+fMeasure) 

if(fMeasure > bestScore){ 
bestScore = f Measure 
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bestModel = model 


} 


} 
System,out.println("Best model:"+bestModel .getClass().getName()) 


现在 ,模型 性 能 得 到 显著 提升 ， 如 下 : 


weka.classifiers.trees.)48 
Recall: 0,44204845100610574 
precision: 0,14570766048577555 
F-measure: 0.21912423640160392 





weka, classifiers,functions, Logistic 
Recall: 0.7670657247204478 
Precision: 0.13507459756495374 
F-measure: 0.22969038530557626 
Best model: weka,Classifiers,functions,Logistic 
从 上 述 结果 可 以 看 到 ,所 有 模型 的 得 分 都 有 了 显著 提高 ， 比 如 最 佳 模型 一 一 逻辑 回归 ， 它 发 
现 欺诈 的 准确 率 达 到 了 76%; 而 误 报 率 相对 合理 ， 被 标记 为 “欺诈 ”的 索赔 中 ， 只 有 13% 是 真正 
的 欺诈 。 如 果 “ 漏 掉 一 个 坏人 ”( 未 检测 到 欺诈 行为 ) 所 付出 的 代价 要 比 “ 误 杀 一 个 好 人 ”( 欺诈 
误 报 ) 的 代价 大 得 多 ， 那 么 “宁可 误杀 也 不 错 放 ”就 是 理 所 应 当 的 了 。 


模型 的 整体 性 能 可 能 还 有 一 些 提 升 空间 ， 比 如 我 们 可 以 做 属性 选择 与 特征 生成 , 并 且 应 用 更 
复杂 的 模型 学 习 ， 相 关内 容 已 经 在 第 3 章 讲解 过 。 
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第 二 个 例子 中 ， 我 们 将 对 前 一 个 例子 的 反面 建 模 。 我 们 不 会 讨论 典型 的 少 欺诈 案例 是 什么 ， 
而 要 讨论 系统 正常 的 预期 行为 。 如 有 果 有 违背 模型 预期 的 事情 发 生 ， 这 个 事情 就 会 被 识别 为 异常 。 

















7.5.1 数据 集 
我 们 将 使 用 一 个 Yahoo Labs 公 开 的 数据 集 ， 这 有 助 于 我 们 研究 如 何 从 时 序数 据 中 检测 异常 。 
对 于 Yahoo 而 言 ， 主 要 使 用 案例 是 检测 Yahoo 服 务 器 上 的 非 正常 流量 。 


尽管 Yahoo 宣 称 他 们 的 数据 是 公开 的 ， 但 使 用 时 必须 申请 ， 一 般 24 小 时 后 才能 获得 授权 。 你 
可 以 从 如 下 网 址 获取 数据 集 : 


























http://webscope.sandbox.yahoo.com/catalog.php?datatype=s&did=70 

数据 集 由 流向 Yahoo 服 务 的 真实 流量 组 成 ,里 面 同时 含有 一 些 合成 数据 。 这 个 数据 集 总 共 包 
含 367 个 时 间 序 列 ， 每 个 时 序 包含 741~1680 个 观察 结果 ， 它 们 是 按 固 定时 间 间 隔 记录 得 到 的 。 每 
个 序列 都 有 自己 的 记录 文件 ,每 一 行 对 应 一 个 观察 结果 。 每 个 序列 都 带 有 一 个 列 指示 器 一 一 “ 异 

















108 第 7 章 ”其 诈 与 异常 检测 





常 ”( anomaly )， 观 察 表明 这 个 序列 是 异常 时 ， 该 列 值 为 1， 否 则 为 0。 实 际 数据 中 的 异常 由 人 为 
判断 决定 ， 而 合成 数据 中 的 异常 由 算法 自动 生成 。 表 7-2 展 示 的 是 几 个 合成 时 序数 据 的 例子 。 




















表 7-2 合成 时 序数 据 片段 





timestamp value anomaly changepoint trend noise 人 人 人 
1422237600 4333.43 0 0 4599 1.81 一 190.95 —128.86 52.44 
1422241200 4316.14 0 0 4602 —14.65 —220.5 —105.21 54.51 
1422244800 4403.20 0 0 4605 7.04 一 190.95 一 74.39 56.51 
1422248400 4531.20 0 0 4608 13.52 —110.25 —38.51 58.43 
1422252000 4967.50 1 0 4911 一 3.77 —6.91 -2.33 60.27 





接 下 来 ， 我 们 将 学 习 如 何 将 时 序数 据 转换 为 属性 ， 以 便 应 用 机 器 学 习 算 法 。 


7.5.2 ”时 序数 据 中 的 异常 检测 


在 原始 流 式 时 序数 据 中 检测 异常 时 , 需要 对 数据 做 一 些 转换 。 最 明显 的 做 法 是 选择 一 个 时 间 
窗口 ， 用 固定 长 度 采集 时 间 序 列 。 接 下 来 ,我 们 比较 新 时 间 序列 与 之 前 采集 的 序列 ， 以 检测 是 否 
有 异常 发 生 。 


可 以 选用 的 比较 技术 多 种 多 样 : 


口 预测 最 有 可 能 的 跟随 值 (following value ) 以 及 置信 区 间 (比如 霍 尔 特 - 温 特 指数 平滑 )。 

若 新 值 超出 预测 的 置信 区 间 ， 即 被 判定 为 异常 。 

口 互相 关 ( Cross correlation ) 技术 比较 新 样本 与 正 例 样本 库 , 查找 准确 匹配 。 若 未 发 现 匹配 ， 

则 把 新 样本 标记 为 异常 。 

口 动态 时 间 规 整 与 互相 关 类 似 ， 但 它 允 许 比较 中 有 信号 失真 。 

口 信号 离散 化 到 频带 ， 每 个 频带 对 应 于 一 个 字母 ， 比 如 A=[min, mean/3] 、B=[mean/3， 
mean*2/3] 、C=[mean*2/3, max]， 将 信号 转换 为 字母 序列 ， 比 如 aAABAACAABBA.... 这 个 
方法 可 以 有 效 减 少 存储 ， 并 且 人 允许 我 们 使 用 文本 挖掘 算法 。 文 本 挖掘 相关 内 容 将 在 第 10 
章 讲解 。 

口 基于 分 布 的 方法 评估 一 个 特定 时 间 窗 口中 值 的 分 布 。 观 察 一 个 新 样本 时 ， 可 以 将 其 分 布 

与 之 前 观察 的 进行 比较 ， 查 看 是 否 匹 配 。 


上 述 列表 并 不 全 面 ， 这 些 不 同方 法 都 将 重点 放 在 检测 某 些 异常 上 ( 比如 值 异常 、 频 率 异常 、 
分 布 异常 )。 接 下 来 将 重点 讲解 基于 分 布 的 方法 。 


1. 基于 直方 图 的 异常 检测 
基于 直方 图 的 异常 检测 中 ， 通 过 某 个 选 定 的 时 间 窗 口 对 信号 做 切 分 ， 如 图 7-4 所 示 。 
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针对 每 个 窗口 计算 直方 图 ,也 就 是 说 ， 针 对 选中 的 桶 数 ， 计 算 每 个 桶 中 落 和 多少 个 值 。 直 方 
图 反映 了 所 选 时 间 窗 口中 值 的 分 布 情况 (下 图 中 间 部 分 )。 

然后 ， 可 以 直接 把 直方 图 表示 成 实例 ， 每 个 bn 对 应 一 个 属性 。 而 且 ， 通 过 应 用 维度 缩减 技 
术 (比如 主 成 分 分 析 ，PCA )， 可 以 减少 属性 数目 ， 这 样 就 可 以 使 用 散 点 图 绘制 降 维 后 的 直方 图 ， 
其 中 每 个 点 代表 一 个 直方 图 (下 图 右 下 )。 


我 们 的 示例 中 ， 主 要 的 想法 是 先 对 网 站 流量 观察 几 天 ， 然 后 创建 直方 图 ， 比 如 以 4 小 时 为 窗 
口 创建 一 个 正常 行为 库 。 若 新 时 间 窗 口 直方 图 与 正常 行为 库 不 匹配 ， 就 将 其 标记 为 异常 。 
































每 个 窗口 的 直观 图 
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图 7-4 ”基于 直方 图 的 异常 检测 
比较 一 个 新 的 直方 图 与 一 组 已 有 的 直方 图 时 ， 
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异常 因子 算法 (LOF，Breunig 等 ，2000 )。 这 个 算法 能 够 处 理 拥 有 不 同 密 度 的 群 组 (clusters )， 
如 图 7-5 所 示 。 比 如 ， 相 比 于 左下 方 小 而 密集 的 群 组 ， 右 上 方 群 组 既 大 又 广 。 


人 
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下 面 让 我 们 开始 吧 ! 
2. 加 载 数 据 


第 一 步 中 ,我 们 需要 把 数据 从 文本 文件 加 载 到 一 个 Java 对 象 。 这 些 文本 文件 存储 在 一 个 文件 
每 个 文件 中 ， 每 一 行 就 是 一 个 带 有 值 的 时 间 序 列 。 我 们 将 其 加 载 到 一 个 Doubl e 型 列表 : 


String filepath = "chap07/ydata/AlBenchmark/real®"; 
List<List<Double>> rawData = new ArrayList<List<Double>>() 


对 直方 图 做 正 态 化 处 理 的 过 程 中 ,要 用 到 mi n 与 max 值 。 因 此 数据 传递 时 , 需要 先 得 到 它们 。 














double max = Double.MIN_VALUE 
double min = Double. MAX_VALUE 
for(int i = 1; i<= 67; i ++){ 


List<Double> sample = new ArrayList<Doubl e>() 
BufferedReader reader = new BufferedReader(new 
FileReader (filepath+ti+".csv")); 


入 
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bool ean isAnomaly = false,; 

reader.readline(); 

while(reader.ready(})}{ 
String line[l] = reader.readLine().split(","); 
double value = Double.parseDouble(line[1]); 
sampl e.add(val ue); 


max = Math.max(max, val ue); 

min = Double.min(min, value); 

if(line[2] == "1°") 

isAnomaly = true; 

} 
System.out.println(isAnomal y); 
reader.closel(); 
rawData.add(sampl e),; 





} 
至 此 ， 数 据 加 载 完 毕 ， 接 下 来 开始 创建 直方 图 。 


3. 创建 直方 图 


我 们 将 按照 W N_ SI1 ZE 宽度 为 选 定 的 时 间 窗 口 创建 直方 图 。 这 个 直方 图 用 于 存储 HI ST_ BI N5 
值 桶 (value buckets )。 这 些 包含 double 列 表 的 直方 图 会 被 存储 到 一 个 数组 列表 。 


int WIN SIZE = 500; 
int HIST_BINS = 20; 
int current = 0; 


List<doublelj> dataHist = new ArrayList<double[]>(); 


for(List<Double> sample : rawData){ 
double[] histogram = new double[ HIST_BI NS]; 
for(double value : Sample){ 
int bin = toBin(normalize(value, min, max), HIST_BI NS),; 
histograml bin]++; 
CUrrent ++i 
if(current == WAN SIZE){ 
current = 0; 
dataHist.add(histogram); 
histogram = new doubl e[f HI ST_BI NS]; 
} 
} 
dataHist.add(histogram),; 














} 
直方 图 已 经 做 好 ， 接 下 来 要 把 它们 转换 为 Weka 中 的 | nst ance 对象。 每 个 直方 图 值 对 应 于 一 
个 Weka 属 性 ， 代 码 如 下 : 


ArrayList<Attribute> attributes = new ArrayList<Attribute>(); 
for(int i = 0; i<HIST_ BINS; i ++){ 
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attributes.add(new Attribute("Hist-"+i)); 


} 

Instances dataset = new lnstances("My dataset", attributes, 
dataHist.sizel()); 

for(double[] histogram: dataHist){ 
dataset.add(new lnstance(1.0, histogram)) 

} 


至 此 ， 我 们 已 经 加 载 好 数据 集 ， 接 下 来 应 用 异常 检测 算法 。 
4. 基于 密度 的 k 最 近邻 算法 
为 了 演示 LOF 算 法 ( 即 局 部 异常 因子 算法 ) 如 何 计算 分 数 ， 先 使 用 test CV(int，int) 函数 


























把 数据 集 划 分 为 训练 集 与 测试 集 。 其 中 ,第 一 个 参数 用 于 指定 折 数 ， 第 二 个 参数 指定 要 返回 哪个 


折 。 








1 1 把 数据 集 划 分 为 训练 集 与 测试 集 
|nstances trainData = dataset.testCV(2, 0); 
Instances testData = dataset.testCV(2, 1); 


虽然 LOF 算 法 不 是 Weka 发 布 版 本 的 一 部 分 ， 但 我 们 仍然 可 以 使 用 Weka 的 包 管 理 器 下载 它 。 





























http://weka.sourceforge.net/packageMetaData/localOutlierFactor/index.html 


LOF 算 法 有 两 个 实现 接口 : 一 个 用 作 无 监督 过 滤器 ， 计 算 LOF 值 (已 知 的 未 知 ); 另 一 个 用 


作 监 督 k-nn 分 类 器 (已 知 的 已 知 )。 我 们 的 示例 要 计算 异常 分 数 因子 ( outlier-ness factor )， 所 以 将 
使 用 无 监督 过 滤器 接口 : 


import weka.filters.unsupervised.attribute.LOF 


使 用 常规 过 滤器 的 初始 化 方式 对 这 个 过 滤 融 进行 初始 化 。 可 以 指定 邻居 的 k 数 ( 比如 x=3 ) 以 








及 - mi n 与 - max 参数 。LOF 人 允许 我 们 指定 两 个 不 同 的 参数 ， 在 内 部 一 个 用 作 上 界 ， 另 一 个 用 作 下 


界 ， 


以 便 查 找 最 小 /最 大 数 | of 值 : 

LOF lof = new LOoF()， 

|of,setlnputFormat(trainDatal) 

lof.setOptions(new string fmn "3", "-mx", "3"}) 


接 下 来 ， 将 训练 实例 加 载 到 过 滤器 ， 用 作 正 例 库 。 加 载 完 成 后 ， 调 用 bat chFinished() 方 





法 对 内 部 计算 做 初始 化 : 





for(lnstance inst : trainData){ 
|of, input(inst)， 


} 
lof.,batchFfinished!(); 


最 后 ， 将 过 滤 需 应 用 于 测试 数据 。 过 滤 需 将 处 理 实例 ,并 在 最 后 添加 一 个 包含 LOF 评 分 的 属 





生 。 我 们 可 以 在 控制 台 简 单 输出 分 数 。 
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Instances testDataLof Score = Filter.useFfilter(testData, |of); 


for(lnstance inst : testDataLof Score){ 
System.out.println(inst.value(inst.,.numAttributes()-1)); 


} 
前 面 几 个 测试 实例 的 LOF 分 数 如 下 : 


1,306740014927325 
1,318239332210458 
1,0294812291949587 
1,1715039094530768 


为 了 理解 LOF 值 ， 需 要 先 了 解 LOF 算 法 。LOF 算 法 比较 一 个 实例 的 密度 与 其 最 近邻 的 密度 ， 
两 个 分 数 相 除 就 是 LOF 分 数 。 若 LOF 分 数 接近 1, 则 表示 密度 近似 相等 。LOF 值 越 大 ， 表 示 实 例 密 
度 越 低 于 它 邻 居 的 密度 。 这 些 情况 下 ， 实 例会 被 标记 为 异常 。 




















7.6 小 结 








本 章 学 习 了 检测 异常 与 可 疑 模式 的 内 容 。 我们 先 讨论 了 两 种 基本 方法 ,重点 是 对 正 模式 或 负 
模式 进行 编码 的 库 。 然 后 搞 到 了 两 个 实际 数据 集 , 讨论 了 如 何 处 理 非 平衡 类 分 布 ， 以 及 如 何在 时 
序数 据 中 做 异常 检测 。 


下 一 音 将 深入 学 习 各 种 模式 , 和 掌握 创建 基于 模式 的 分 类 器 的 更 高 级 方法 , 并 讨论 如 何 使 用 深 
度 学 习 自 动 为 图 像 指派 标签 。 



































利用 Deeplearning 作 进行 
图 像 识别 








网 络 世 界 中 ， 图 像 无 处 不 在 ,遍及 Web 服 务 、 社 交 网 络 、 网 店 等 各 个 领域 。 与 人 类 相 比 ,在 
理解 图 像 内 容 以 及 图 像 含义 方面 , 计算 机 遇 到 了 很 大 困难 。 本 章 先 介绍 计算 机 理解 图 像 教 育 方面 
遇 到 的 难题 , 接着 重点 讲解 一 个 基于 深度 学 习 的 解决 方法 。 我 们 会 学 习 配 置 深度 学 习 模 型 的 高 层 
次 理论 ， 并 且 讨 论 如 何 使 用 一 个 Java 库 一 一 Deepleaming4j 实 现 对 图 像 进行 分 类 的 模型 。 


本 章 涵 盖 如 下 内 容 : 
口 图 像 识别 简介 

D 讨论 深度 学 习 基 础 
口 创建 一 个 图 像 识别 模型 



































8.1 图 像 识 别 简 介 


图 像 识 别 的 典型 目标 是 从 一 幅 数 字 图 像 中 检测 并 识别 一 个 对 象 。 图 像 识 别 可 以 应 用 于 工厂 自 
动 化 系统 ， 以 监督 产品 质量 ; 也 可 以 应 用 于 监控 系统 ， 以 识别 潜在 的 危险 行为 ， 比 如 行人 或 移动 
的 车 辆 ; 还 可 以 应 用 到 = 于 安保 系统 ， 以 通过 指纹 、 虹 膜 、 面 部 特征 进行 生物 特征 识别 ; 以 及 应 
用 于 汽车 自动 驾 台 技 术 ， 以 重建 路 面 与 环境 条 件 等 。 


数字 图 像 不 以 带 有 属性 描述 的 结构 化 方式 呈现 , 相反 , 它们 会 被 编码 为 不 同 通道 中 的 颜色 数 
量 ， 比 如 黑 - 白 与 红 - 绿 - 蓝 通 道 。 学 习 的 目标 是 识别 与 特定 对 象 相关 联 的 模式 。 传 统 的 图 像 识别 
方法 是 ,将 一 幅 图 像 转换 为 不 同形 式 ， 比 如 识别 对 象 的 角 点 、 边 缘 、 同 色 斑 点 与 基本 形状 。 然 后 
使 用 这 些 模 式 训练 学 习 器 ， 使 之 能 够 区 分 不 同 对 象 。 下 面 列 出 了 一 些 有 名 的 传统 图 像 识别 算法 。 
口 边缘 检测 : 查找 一 幅 图 像 中 对 象 的 边界 。 
口 角 点 检测 : 识别 两 条 边 的 交叉 点 或 者 其 他 感 兴趣 的 点 ， 比 如 行 尾 结束 符号 、 曲 率 极 大 值 / 
极 小 值 等 。 
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口 斑点 检测 : 识别 与 周边 区 域 有 不 同 特征 的 区 域 ， 比 如 亮度 、 颜 色 。 

口 岭 检测 : 使 用 平滑 函数 识别 图 像 中 的 兴趣 点 。 

口 尺度 不 变 特征 变换 (SIFT ): 这 个 算法 十 分 强大 ， 即 使 目标 对 象 大 小 或 方向 与 比 对 数据 库 
中 的 典型 样本 不 同 ， 它 依然 能 够 匹配 目标 对 象 。 

口 堆 夫 变换 ( Hough transform ): 识别 图 像 中 的 特定 模式 。 


目前 , 图 像 识 别 使 用 的 最 新 方法 是 深度 学 习 技术 。 深 度 学 习 是 神经 网 络 的 一 种 ， 它 模仿 了 大 
脑 处 理 信息 的 方法 。 深 度 学 习 的 主要 优点 是 , 我 们 可 以 设计 神经 网 络 自动 提取 相关 模式 , 这 些 模 
式 反 过 来 用 于 训练 学 习 器 。 随 着 神经 网 络 技术 最 新 取得 进展 ,图 像 识 别 精度 得 到 了 明显 提升 。 比 
如 ，ImageNet 挑 战 赛 ( ImageNet，2016 ) 中 ,主办 方 提 供 了 120 万 张 图 像 ， 这些 图 像 分 别 来 自 1000 
个 不 同 分 类 ， 最 佳 算法 的 错误 率 由 28% ( 2010 年 ， 利 用 SVM ) 降低 到 7% ( 2014 年 ， 利 用 深度 神 
经 网 络 )。 


本 章 将 简单 了 解 神经 网 络 ， 从 最 基本 的 构建 块 
























































感知 器 开始 ， 逐 渐 引 入 更 复杂 的 结构 。 


神经 网 络 


神经 网 络 最 早出 现在 20 世 纪 60 年 代 , 其 灵感 来 自生 物 神 经 网 络 的 研究 。 神 经 网 络 最 新 研究 成 
果 表 明 ， 深度 神经 网 络 非常 适合 用 于 模式 识别 任务 ， 因 为 它们 能 够 自动 提取 有 趣 特 征 ， 并 且 学 习 
底层 表示 。 这 部 分 内 容 中 ， 我 们 将 学 习 从 单个 感知 器 到 深度 网 络 的 基本 结构 与 组 件 。 

1. 感知 器 

感知 器 是 神经 网 络 最 基本 的 构建 单元 , 也 是 最 早 的 监督 算法 之 一 。 它 定义 为 ,用 权 值 对 输入 
进行 加 权 并 加 上 偏 置 。 求 和 函数 称 为 “和 传递 函数 ”( sum transfer function )， 它 被 送 到 一 个 激 
活 函 数 (activation function )。 如 果 激 活 函 数 到 达 阔 值 ， 输 出 为 1， 否 则 为 0。 这 就 为 我 们 提供 了 
一 个 二 元 分 类 器 。 感 知 右 神经 元 模型 如 图 8-1 所 示 。 




































out(t) 


wo(t) = 0 














图 8-1 ”感知 器 神经 元 模型 


训练 感知 器 使 用 的 学 习 算 法 相当 简单 : 先 在 计算 输出 值 与 正确 的 训练 输出 值 之 间 计 算 误 差 ， 
然后 根据 误差 调整 权重 ， 从 而 实现 某 种 形式 的 梯度 下 降 算法 。 这 个 算法 通常 称 为 delta 规 则 。 
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单 层 感知 器 不 是 很 先进 ， 非 线性 可 分 函数 比如 XOR ) 不 能 用 它 建 模 。 为 了 解决 这 个 问题 ， 
人 们 引入 了 多 个 感知 器 结构 ， 称 为 多 层 感知 器 ， 也 叫 前 馈 神 经 网 络 。 


2. 前 馈 神 经 网 络 

前 馈 神 经 网 络 是 由 多 个 感知 器 组 成 的 人 工 神经 网 络 , 这 些 感知 器 按 层 组 织 , 可 分 为 : 输入 层 、 
输出 层 、 一 个 或 多 个 隐藏 层 ， 如 图 8-2 所 示 。 每 层 感 知 器 ( 也 叫 神经 元 ) 与 下 层 感 知 器 直接 相连 ， 
两 个 神经 元 之 间 的 连接 带 有 一 个 权重 ， 类 似 于 感知 器 权重 。 图 8-2 显 示 的 是 一 个 带 有 四 元 输入 层 
的 网 络 ( 对 应 于 长 度 为 4 的 特征 向 量 )、 四 元 隐藏 层 ， 以 及 二 元 输出 层 ， 每 元 对 应 于 一 个 类 值 。 






































输入 层 隐藏 输出 层 


输入 














图 8-2 ”前 馈 神 经 网 络 


训练 多 层 网 络 最 流行 的 方法 是 反 向 传播 算法 。 这 种 算法 中 ,采用 与 delta 规 则 一 样 的 方式 , 将 
计算 得 到 的 输出 值 与 实际 输出 值 进行 比较 。 然 后 借助 各 种 技术 , 通过 网 络 反馈 误差 , 调整 每 个 连 
接 的 权重 ,以 便 减 小 误差 值 。 这 个 过 程 不 断 重复 ,达到 足够 多 的 训练 周期 直到 错误 少 于 某 个 特 
定 阔 值 。 

前 馈 神 经 网 络 可 以 拥有 一 个 以 上 的 隐藏 层 , 每 一 个 新 增 隐 藏 层 在 先前 层 之 上 创建 一 个 新 的 抽 
象 。 这 样 做 通常 可 以 让 模型 变 得 更 精确 ， 但 增加 隐藏 层 数目 会 导致 如 下 两 个 问题 。 

口 消失 的 梯度 问题 : 随 着 隐藏 层 的 增多 ， 将 信息 传递 到 先前 层 时 ， 反 向 传播 训练 方法 变 得 
越 来 越 无 用 ， 这 会 导致 先前 层 训练 很 慢 。 

口 过 拟 合 : 模型 对 训练 数据 拟 合 过 度 ， 对 于 真实 样本 表现 糟糕 。 

接 下 来 ， 了 解 用 来 处 理 这 些 问 题 的 其 他 网 络 结构 。 

3. 自动 编码 器 


自动 编码 器 ( Autoencoder ) 是 一 种 前 馈 神 经 网 络 ,其 目标 是 学 习 如 何 压 缩 原 数据 集 。 我 们 不 
是 将 特征 映射 到 输入 层 以 及 将 标签 映射 到 输出 层 , 而 是 将 特征 同时 映射 到 输入 与 输出 层 。 隐藏 层 
的 元 数 与 输入 层 的 元 数 通常 是 不 同 的 ,这 会 强制 网 络 要 么 扩展 , 要 人 么 减少 原 特征 的 数量 。 借 助 这 
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种 方式 ， 网 络 会 学 习 那 些 重要 特征 ， 进 而 有 效 进行 维 数 缩减 。 
图 8-3 是 一 个 自动 编码 器 的 例子 。 如 图 所 示 ， 首 先 三 元 输入 层 扩展 为 四 元 层 ， 然 后 压缩 成 一 






































元 层 。 在 网 络 的 另 一 侧 将 一 元 层 恢复 为 四 元 层 ， 然 后 再 恢复 为 原来 的 三 元 输入 层 。 
Exir :一 2 Byon :ZZ— 

















图 8-3 ”自动 编码 器 


一 旦 网 络 训 练 好 之 后 , 我 们 就 可 以 利用 左 侧 网 络 提 取 图 像 特征 , 就 像 我 们 在 传统 图 像 处 理 中 
所 做 的 那样 。 


还 可 以 将 多 个 自动 编码 器 组 成 堆 又 式 自动 编码 器 ， 如 图 8-4 所 示 。 前 面 已 经 对 最 基本 的 自动 
编码 器 做 了 讲解 ， 这 里 要 讨论 其 隐藏 层 。 然 后 ， 选 取 学 好 的 隐藏 层 〈 圆圈 )， 并 且 重 复 这 个 步骤 ， 
学 习 更 多 的 抽象 表示 。 可 以 多 次 重复 这 个 过 程 ， 将 原 特 征 转换 为 越 来 越 少 的 维 数 。 最 后 ， 选 择 所 
有 隐藏 层 ， 将 其 堆 受 为 一 个 规则 的 前 馈 网 络 ， 如 图 8-4 右 上 角 所 示 。 
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图 8-4” 堆 秋 式 自动 编码 器 



































受 限 玻 尔 效 曼 机 ( Restricted Boltzman machine，RBM ) 是 一 种 无 向 神经 网 络 ， 也 称 为 生成 式 
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随机 神经 网 络 ( Generative Stochastic Networks，GSN )， 它 能 够 在 输入 集 之 上 学 习 概率 分 布 。 
顾名思义 , 它 起 源 于 玻 尔 兹 曼 机 ( Boltzman machine )， 这 是 一 种 20 世 纪 80 年 代 出 现 的 循环 神经 网 
络 。“ 受 限 ” 是 指 神经 元 必须 组 成 两 个 全 连接 层 一 一 输入 层 与 隐藏 层 ， 如 图 8-5 所 示 。 


















































图 8-5” 受 限 玻 尔 兹 曼 机 








不 同 于 前 馈 网 络 ， 可 见 层 与 隐藏 层 之 间 的 连接 是 无 向 的 。 因 此 ， 值 可 以 沿 着 “可 见 -隐藏 ” 
与 “隐藏 -可 见 ” 方 向 传播 。 

受 限 玻 尔 效 曼 机 的 训练 基于 对 比 散 度 算法 ( Contrastive Divergence )， 使 用 类 似 反 向 传播 的 
梯度 下 降 过 程 更 新 权重 ， 将 吉 布 斯 采样 ( Gibbs sampling ) 应 用 到 马尔 可 夫 链 以 评估 梯度 一 一 权 
重 的 改变 方向 。 

我 们 也 可 以 堆 震 受 限 玻 尔 效 曼 机 ， 形 成 深度 信念 网 络 ( Deep Belief Networks，DBN )。 此 情 
形 之 下 ，RBM 的 隐藏 层 充 当 RBM 层 的 可 见 层 ， 如 图 8-6 所 示 。 








GOOOOOOn 
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RBM : 
COO000009* G000000 x* x 
(a) 为 x 训练 RBM (b) 为 hi 训练 RBM (0) 为 与 y 训 练 RBM 











图 8-6 ”深度 信念 网 络 

















训练 是 渐进 式 的 ， 即 逐 层 训 练 。 
5. 深度 卷 积 网 络 
最 近 ， 在 图 像 识 别 测试 中 取得 很 好 效果 的 一 种 网 络 结构 是 卷 积 神经 网 络 ( Convolutional 
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Neural Network，CNN )。 它 是 前 馈 神 经 网 络 的 一 种 ， 模 拟 视觉 皮层 的 行为 ， 用 于 探索 输入 图 像 
的 2D 结 构 ， 即 展现 空间 局 部 相关 性 的 模式 。 


CNN 网 络 由 若干 卷 积 与 子 采样 层 组 成 , 后 面 可 以 有 全 连接 层 。 图 8-7 显 示 的 是 一 个 CNN 网 络 。 
输入 层 读 取 一 幅 图 像 中 的 所 有 像素 ， 然 后 应 用 多 个 过 滤器 。 图 中 应 用 了 4 个 不 同 的 过 滤器 。 每 个 
过 滤器 都 应 用 到 原 图 像 , 比如 一 个 6 x 6 过 滤器 的 一 个 像素 被 计算 为 输入 像素 的 6 x 6 平方 与 相应 的 
6x6 权 重 之 和 。 这 实际 引入 了 与 处 理 标准 图 像 类 似 的 过 滤器 ， 比 如 平滑 、 相 关 、 边 缘 检测 等 。 这 
样 产生 的 结果 图 像 称 为 特征 图 ( feature map )。 图 像 例 子 中 ， 我 们 有 4 个 特征 图 ， 每 一 个 对 应 一 
个 过 滤器 。 


接 下 来 的 层 是 子 采 样 层 ， 它 用 于 减少 输入 大 小 。 在 2 x 2 的 连续 区 域 上 ( 大 图 像 高 达 5 x 5 )， 
通常 采用 平均 值 或 最 大 池 化 (max pooling ) 方法 ， 对 每 个 特征 图 做 子 采 样 。 比 如 ， 如 果 特 征 图 大 
小 是 16 x 16, 子 采样 区 域 是 2 x 2， 缩 减 后 的 特征 图 尺寸 是 8 x 8， 通 过 计算 最 大 、 最 小 、 平 均值 或 
者 用 其 他 函数 ， 将 4 个 像素 (2 x 2 方 格 ) 合并 成 一 个 像素 。 
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图 8-7 ”CNN 网 络 

网 络 可 以 包含 几 个 连续 卷 积 与 子 采样 层 ， 如 图 8-7 所 示 。 一 个 特定 的 特征 图 会 被 连接 到 下 一 
个 缩减 / 卷 积 特征 图 ， 而 相同 层 上 的 特征 图 不 会 彼此 相连 。 

在 最 后 的 子 采 样 层 或 卷 积 层 之 后 , 通常 会 有 一 个 全 连接 层 ( 与 标准 多 层 神经 网 络 中 的 层 完 全 
相同 )， 表 示 目 标 数 据 。 


CNN 训 练 采用 修改 过 的 反 向 传播 算法 , 它 会 把 子 采 样 层 也 一 起 考虑 进来 , 并 且 基 于 所 有 应 用 
过 滤器 的 值 更 新 卷 积 过 滤器 的 权重 。 



























































在 InageNet 比 赛 结果 页 面 可 以 看 到 一 些 好 的 CNN 设 计 : 

http://www.image-net.org/ 

A. Krizhevsky 等 人 撰写 的 ImageNet Classification with Deep Covolutional 
Neural Networks 论 文中 介绍 了 AlexNet。 








至 此 ， 我 们 大 致 了 解 了 主要 的 神经 网 络 结构 。 接 下 来 ， 我 们 将 学 习 如 何 实际 实现 。 
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8.2 图 像 分 类 


本 节 将 讨论 如 何 使 用 Deeplearning4j 库 实现 一 些 神经 网 络 结构 。 




















8.2.1 Deeplearning4j 
第 2 章 已 经 提 到 过 Deeplearning4j 库 ， 它 是 Java ET 下 的 开源 
Deeplearning4j 依 赖 Spark 与 we ， 并 行 训练 模型 ， 
生 参 数 进行 平均 。 关 于 这 个 库 的 详细 介绍 ， 请 参考 第 和 2 意 相关 内 容 。 
获取 DL4J 


获取 Deeplearning4j 最 简便 的 方法 是 通过 Maven 仓 库 : 





口 新 建 一 个 Eclipse 项 目 ， 


选择 Maven Project， 如 图 8-8 所 示 。 





了 分布 式 深度 学 习 项 目 。 
且 反 复 对 中 心 模型 中 产 








© 
Select a 


type fil 


Pp EJ 





®@ 


New Project 


wizard 


Create a Maven Project 


Wizards: 


Iter text @| 


™ E> General 
SProject 
Pp E>-CVS 


ava 


TE Maven 
,Check out Maven Projects from SCM 
Maven Module 
M3 Maven Project 

p ESVN 

PF E> Examples 


Cancel 


选择 Maven Project 


图 8-8 





口 打开 pom. xml 文件 ， 在 <dependenci es> 部 分 添加 如 下 依赖 关系 : 


<dependency> 


<groupl d>org. deeplearning4j </groupld> 


<artifactld>deepl earning4j- 
<version>${dl4j. 


</ dependency> 


<dependency> 


nl p</artifactld> 
version}</version> 


<groupl d>org. deeplearning4j </groupld> 
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<artifactld>deeplearning4j-core</artifactld> 
<version>${dl4j.version}</version> 
</dependency> 








口 最 后 ， 布 键 单 击 Project， 选 择 Maven， 选 择 Update project。 


8.2.2 ”MNIST 数据 集 




















MNIST 数 据 集 是 最 著名 的 数据 集 之 一 ,由 手写 数字 组 成 如 图 8-9 所 示 。 该 数据 集 包含 60 000 





























个 训练 与 10 000 个 测试 图 像 。 
YZ9d6YNF706927715s141193 
) 了 SI176Z8zZJLSsO7Td79DFaAzZ 
\/83b/O0OF1O0011273065 
2Z6907IH99A4071020606351Y65 
图 8-9 ”MNIST 数 据 集 






































这 个 数据 集 通常 用 在 图 像 识别 问题 中 ， 以 测试 算法 性 能 。 最 差 记 录 的 错误 率 是 12%， 测试 时 
使 用 单 层 神经 网 络 中 的 SVM 算法 , 并 且 没 有 做 预 处 理 。 截止 到 2016 年 , 最 低 的 错误 率 只 有 0.21%， 
使 用 的 是 DropConnect 神 经 网 络 ; 紧 随 其 后 的 是 深度 卷 积 网 络 ， 错 误 率 为 0.23%; 然后 是 深度 前 
馈 网 络 ， 错 误 率 是 0.35% 。 


接 下 来 ， 让 我 们 看 看 如 何 加 载 数据 集 。 





























8.2.3 加载 数 据 


Deeplearning4j 提供 了 “ 开 箱 即 用 ”的 MNIST 数 据 集 加 载 器 。 加 载 器 被 初始 化 为 
Datagetlterator 。 先 导入 Datagetlterator 类 与 所 有 支持 的 数据 集 ， 这 些 数 据 集 是 i mp| 包 
的 一 部 分 ， 包 含 的 数据 集 有 Iris 、MNIST 及 其 他 。 








import org,deeplearning4j,.datasets,iterator,Datao9etlteratori 

import org.deeplearning4j.datasets.iterator.i mpl.*; 

接着 定义 一 些 常量 ， 比 如 28 x 28 个 像素 组 成 的 图 像 ， 有 10 个 目标 类 与 60 000 个 样本 。 新 初始 
化 一 个 Mni st DataSet1terator 类， 用 于 下 载 数 据 集 及 其 标签 。 参 数 分 别 是 迭代 批 大 小 、 总 样 
本 数 ， 以 及 是 否 将 数据 集 二 值 化 : 











int numRows = 28; 

int numCol umns = 28; 

int outputNum = 10; 

int num9amples = 600000， 

int batchSize = 100; 

DataSetlterator iter = new MnistDataSetlterator(batchSize, numSampl es,true); 
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有 一 个 已 经 实现 的 数据 导入 器 真 的 很 方便 , 但 它 对 你 自己 的 数据 不 起 作用 。 下 面 快速 了 解 一 
下 它 是 如 何 实现 的 ,以 及 如 何 调整 才能 让 它 支 持 你 的 数据 。 如 果 你 想 迫 不 及 待 地 开始 实现 神经 网 
络 ， 那 么 完全 可 以 跳 过 下 面 这 部 分 内 容 。 当 你 需要 导入 自己 的 数据 时 ， 再 回 过 头 来 学 习 。 





为 了 加 载 我 们 自己 的 数据 ， 你 需要 实现 两 个 类 ， 一 个 是 DataSetIterator 类 ， 
保存 数据 集 的 所 有 信息 ; 另 一 个 是 BaseDataFetcher 类 ， 用 于 实际 从 文件 、 数 据 库 
或 Web 拉 取 数 据 。 在 GitHub 上 你 可 以 看 到 这 两 个 类 的 示例 实现 :https:/github.comy/ 
3 deeplearning4j/deeplearning4j/tree/master/deeplearning4j-core/src/main/java/org/deeple- 
arning4j/datasets/iterator/impl。 
另 一 个 选择 是 使 用 Canova 库 ， 它 由 同一 个 作者 开发 : http:/deeplearning4j. 


org/canovadoc/。 


8.2.4 创建 模型 
本 闻 将 讨论 如 何 实际 创建 一 个 神经 网 络 模型 。 先 创建 一 个 基本 的 单 层 神经 网 络 建立 一 个 基准 
标杆 ， 并 且 学 习 基 本 操作 。 随 后 ， 使 用 DBN 与 多 层 卷 积 网 络 改进 初始 结果 。 
1. 创建 单 层 回归 模型 


先 创 建 一 个 单 层 回归 模型 ， 它 基于 softmax 激 活 函 数 ， 如 图 8-10 所 示 。 由 于 我 们 只 有 一 个 层 ， 
所 以 神经 网 络 的 输入 是 所 有 图 形 像素 ， 即 28 x 28=784 个 神经 元 。 输出 神经 元 的 个 数 为 10， 对 应 于 
每 一 个 数字 。 网 络 中 的 层 是 全 连接 的 ， 如 图 8-10 所 示 。 




















748 | 




















图 8-10 ” 单 层 回 归 模 型 
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使 用 一 个 Neur al Net Configuration Builder 对 象 定义 神经 网 络 ， 如 下 : 

















MultiLayerConfiguration conf = new Neural Net Configuration.Builder(); 


接着 ， 为 梯度 搜索 定义 参数 ， 以 便 使 用 共 思 梯度 最 优化 算法 做 迭代 。 其 中 ，momentum 参 数 
指定 优化 算法 收敛 到 局 部 最 优 的 速度 ，momentum 值 越 高 ， 训 练 得 越 快 ; 但 速度 过 快 有 可 能 降低 
模型 准确 度 ， 代 码 如 下 : 


.Seed(seed) 
.gradientNormalization(GradientNormalization.ClipEl ement WiseAbsolu 
teValue 
.gradientNormalizationThreshold(1.0) 
.iterations(iterations) 
.momentum(0.5) 
.momentumAfter(Collections.singletonMap(3, 0.9)) 
.0ptimizationAl go(OptimizationAl gorithm. CONJ UGATE_ GRADI ENT) 














接 下 来 ， 指 定 网络 有 一 个 层 ， 并 且 定 义 错误 函数 (NEGATIVELOGLIKELIHOOD )、 内 部 
感知 器 激活 函数 (softmax )， 以 及 输入 和 输出 层 的 数量 ， 对 应 于 总 的 图 像 像 素 和 目标 变量 净 


.list(1) 

.layer(0, new 
OutputLayer.Builder(LossFunction,.NEGATIVELOGLI KELI HOOD) 
.activation("softmax") 
.NIin(numRows*numCol umns)}.nOut (output Num). build()) 


最 后 ， 为 网 络 开 启 预 训练 ( pretrain )， 关 闭 反 向 传播 ， 实 际 创建 未 经 训练 的 网 络 结构 : 


.pretrain(true).backprop(false) 
.build(); 




















一 旦 网 络 结构 定义 完成 后 ， 可 以 用 它 初始 化 一 个 MultiLayerNetwork 对 象 ， 代 码 如 下 : 








MultiLayerNetwork model = new MultiLayerNetwork(conf),; 
model .init(); 3 
接 下 来 ， 调 用 setListeners 方 法 ， 绑 定 模型 与 训练 数据 ， 代 码 如 下 : 





model .setLlisteners(Collections.singletonList((lterationListener 
new ScorelterationListener(listenerFreq))); 


此 外 ， 调 用 fit(int 方 法 触发 端 对 端的 网 络 训 练 : 
model .fit(iter); 


为 了 评价 模型 ， 新 建 并 初始 化 一 个 Evaluation 对 象 ， 用 于 存储 批 结 








Eval uation eval = new Eval uation(outputNum) 


然后 , 在 数据 集 上 分 批 做 迭代 ,以 便 让 内 存 消耗 保持 在 一 个 合理 的 范围 内 ,并 且 结 果 保 存在 
一 个 eval 对 象 中 : 








124 第 8 章 利用 Deeplearning4j 进行 图 像 识别 





DataSetlterator testlter = new MnistDataSetlterator(100,10000); 
Whileltestlter,hasNext() 
DataSet testMnist = 
| NDArray predict2 = 
model .output (testMnist.getFeatureMatrix()); 


eval .eval (testMnist.getLabels(), predict2); 


testlter.next(); 


} 
最 后 ， 调 用 st at s ( ) 函数 获取 结 
log.info(eval.stats()); 
基本 的 单 层 模型 准确 度 如 下 : 
Accuracy: 0.8945 
Preci si on: 0. 8985 


Recall: 0. 8922 
Fl1 Score: 0.8953 


从 上 面 结 果 可 以 看 到 ， 模 型 准确 率 是 89.22% ， 错 误 率 为 10.88% ， 这 表示 模型 在 MNIST 数 据 
集 上 表现 很 差 。 接 下 来 对 模型 做 进一步 改善 , 将 其 从 简单 的 单 层 网 络 变 为 带 有 适度 复杂 度 的 深度 
信念 网 络 ， 这 种 网 络 使 用 了 受 限 玻 尔 效 曼 机 与 多 层 卷 积 网 络 。 


2. 创建 深度 信念 网 络 









































本 节 将 创建 一 个 基于 受 限 玻 尔 效 曼 机 的 深度 信念 网 络 ， 如 图 8-11 所 示 。 深 度 信念 网 络 由 4 个 
层 组 成 ， 第 一 个 层 将 784 个 输入 缩小 为 500 个 神经 元 ， 然 后 是 250 个 ， 再 然后 是 200 个 ， 最 后 是 10 
个 目标 值 : 























层 0 层 1 层 2 层 3 











784 500 250 200 10 








图 8-11 ”基于 受 限 玻 尔 兹 曼 机 的 深度 信念 网 络 
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代码 与 上 一 个 例子 一 样 ， 下 面 看 看 如 何 配置 这 样 一 个 网 络 : 


MultiLayerConfiguration conf = new 
Neural Net Conf i guration,.Builder!() 


接着 定义 梯度 优化 算法 ， 代 码 如 下 : 


.Seed(seed) 

,gradientNormalizationl 
GradientNormalization,ClipElementWseAbsolutevaluel) 
,gradientNormalizationThreshold(1.0) 
.iterations(iterations) 

.momentum( 0.5) 

.momentumAfter(Collections.singletonMap(3, 0.9)) 
.0ptimizationAl go( OptimizationAl gorithm., CONJUGATE_ GRADI ENT) 


然后 ， 指 定 网 络 有 4 个 层 : 
.|ist(4) 


第 一 个 层 的 输入 有 784 个 神经 元 ， 输 出 为 500 个 神经 元 。 使 用 均 方 根 误 差 交 叉 
法 初始 化 权重 ， 基 于 输入 与 输出 神经 元 的 数目 自动 确定 初始 化 权重 的 范围 ， 代 码 如 下 : 


.|ayer(0，new RBM.Builder() 
.nln(numRows*numCol umns) 

.nOut (500) 

. Wei ghtlnit(Weightlnit.XAVIER) 
.lossFunction(LossFunction.RMSE_ XENT) 
.VisibleUnit(RBM.VisibleUnit.BINARY) 
.hiddenunit(RBM HiddenUnit.BINARY) 
.build()) 


接 下 来 的 两 个 层 拥 有 相同 的 参数 ， 但 是 输入 与 输出 神经 元 的 数目 有 所 不 同 : 


.|ayer(1，new RBM.Builder() 

.nln(500) 

.nout(250) 

. Wei ghtlnit(Weightlnit.XAVIER) 
.lossFunction(LossFunction.RMSE_ XENT) 

















Xavier 算 





























.VisibleUnit(RBM.VisibleUnit.,B|INARY) 
.hiddenUnit(RBM.,HiddenUnit.BINARY) 
.build() 

.layer(2, new RBM.Builder() 
.nln(250 

.nout (200) 

. Wei ghtlnit(Weightlnit.XAVIER) 


.lossFunction(LossFunction.RMSE_ XENT) 
.VisibleUnit(RBM.VisibleUnit.,B|INARY) 
.hiddenUnit(RBM,HiddenUnit.BINARY) 

.build() 


现在 , 使 用 最 后 一 个 层 将 神经 元 映射 到 输出 。 使 用 softmax 激 活 函 数 完成 这 个 任务 , 代码 如 下 : 
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.layer(3, new OutputLayer.Builder|() 

.nln(200) 

.NOut (outputNum) 
.|ossFunction(LossFunction,.NEGATIVELOGLI KELI HOOD) 
.activation("softmax") 

.build()) 

.pretrain(true) 

.backprop(false) 

.build(); 


训练 与 评价 的 其 他 部 分 与 单 层 网 络 的 例子 是 一 样 的 。 请 注意 , 训练 深度 网 络 耗 费 的 时 间 可 能 
明显 要 比 训练 单 层 网 络 长 得 多 ， 但 准确 度 应 该 能 够 达到 93% 左 右 。 

接 下 来 ， 让 我 们 看 一 看 男 外 一 个 深度 网 络 。 

3. 创建 多 层 卷 积 网 络 

本 章 最 后 一 个 例子 中 ， 让 我 们 一 起 学 习 如 何 创 建 卷 积 网 络 ， 如 图 8-12 所 示 。 这 个 卷 积 网 络 由 
7 个 层 组 成 : 首先 ， 用 max pooling 重 复 两 对 卷 积 与 子 采 样 层 ; 然后 将 最 后 一 个 子 采 样 层 连接 到 紧 
密 相连 的 前 馈 神 经 网 络 ， 最 后 三 个 层 中 依次 含有 120 个 神经 元 、84 个 神经 元 、10 个 神经 元 。 这 样 
一 种 网 络 实际 上 组 成 了 完整 的 图 像 识别 管道 , 前 4 个 图 层 对 应 于 特征 提取 , 后 3 个 图 层 对 应 于 学 习 
模型 : 





















































层 0 层 1 层 2 层 3 层 4 层 5 层 6 
CNN MaxPool CNN MaxPool Dense Dense Dense 

















图 8-12 ”创建 卷 积 网 络 
网 络 配 置 的 初始 化 方法 与 前 面 一 样 ， 如 下 : 


MultiLayerConfiguration.Builder conf = new 
Neural Net Conf i guration.Builder!() 


接着 ， 指 定 梯度 下 降 算法 及 其 参数 ,代码 如 下 : 


.Seed(seed) 
.iterations(iterations) 
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.activation("sigmoid") 

.wei ghtlnit(Weightlnit.DISTRIBUTI ON) 

.dist(new Normal Distribution(0.0, 0.01)) 
.learningRate(1e-.3) 
.|earningRateScoreBasedDecayRate(1e-1) 
,OptimizationAlgol 

OptimizationAl gorithm.STOCHASTIC_GRADI ENT_DESCENT) 


此 外 ， 还 要 指定 7 个 网 络 屋 ， 如 下 : 


.list(7) 





A 


第 一 个 卷 积 层 的 输入 是 一 幅 完 整 图 像 ,而 输出 是 6 个 特征 图 。 卷 积 层 应 用 一 个 5 x 5 的 过 滤器 ， 
结果 存储 在 1 x 1 单元 格 中 : 


.layer(0, new Convol utionLayer.Builder!l 
new int[]{5, 5}, new int[]{1, 1}) 
.Name("cnn1") 
.nln(numRows*numCol umns 
.nout (6) 

.build!()) 























A 


第 二 个 层 是 子 采样 层 ， 它 接收 一 个 2 x 2 区 域 ， 并 把 最 大 结果 存 成 2 x 2 元 素 : 






































.layer(1, new 9ubsamplingLayer,.Builderl 
Subsampl ingLayer.PoolingType. MAX 

new int[]{2, 2}, new int[]{2, 2}) 
.Name("maxpool 1") 

.build()) 


接 下 来 的 两 个 层 重复 前 面 两 个 层 : 





.layer(2, new Convol utionLayer.Builder(new int[]{5, 5}, new 
Lt [TL 

ame("cnn2") 

.nout (16) 
.biaslnit(1) 
.build()) 

.layer(3, new Subsampl ingLayer.Builder 
(Subsampl ingLayer.PoolingType. MAX, new 
int[]{2, 2}, new int[]{2, 2}) 

.Name("maxpool2") 
.build()) 


-3 





























接着 ， 将 子 采 样 层 的 输出 连接 到 稠密 前 馈 网 络 ， 先 是 120 个 神经 元 ， 然 后 穿 过 另 一 个 层 ， 变 
成 84 个 神经 元 ， 代 码 如 下 : 


.|ayer(4，new DenseLayer.Builder!() 


,name( "ffnl") 
.nout (120) 
.build()) 


.layer(5, new DenseLayer.Builder!() 
.name("ffn2") 
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.nout(84) 
.build()) 


最 后 一 个 层 将 84 个 神经 元 与 10 个 输出 神经 元 连接 在 一 起 : 





.|layer(6, new OutputLayer.Builder 
(LossFunctions.LossFunction,NEGATIVELOGLI KELI HOOD) 

.Name("output") 
.NOut (outputNum) 
.activation("softmax") // 需要 径 向 基 有 函数 (radial basis function) 
.build()) 

.backprop(true) 

.pretrain(false) 

.cnnlnputSize(numRows, numCol umns, 1); 


为 了 训练 这 个 结构 ,可 以 重用 前 面 两 个 例子 中 编写 的 代码 。 再 次 提醒 ,训练 可 能 要 花 一 些 时 
间 ， 训 练 结束 后 ， 网 络 的 准确 度 应 该 能 达到 98% 左 右 。 




















由 于 模型 训练 主要 依赖 线性 代数 运算 ， 所 以 使 用 GPU ( 图 形 处 理 单元 ) 可 
以 明显 提高 训练 速度 。 写 作 本 书 时 , GPU 后 端正 在 进行 重 写 , 请 访问 如 下 网 址 查 
看 最 新 文档 : http://deeplearning4j.org/documentation。 








正如 在 这 些 例子 中 看 到 的 那样 , 越 复杂 的 神经 网 络 越 能 让 我 们 自然 地 提取 相关 特征 ,因而 可 
以 完全 避免 传统 的 图 像 处 理 过 程 。 然 而 , 我 们 为 此 付出 的 代价 是 处 理 时 间 变 长 ,而 且 还 要 有 大 量 
学 习 样本 使 这 种 方法 有 效 。 








8.3 小结 

本 章 讨论 了 如 何 识别 图 像 中 的 模式 以 区 分 不 同 的 类 , 还 介绍 了 深度 学 习 的 基本 原理 , 并 且 
习 了 如 何 使 用 Deeplearning4j 库 进行 实现 。 我 们 从 基本 的 神经 网 络 结构 讲 起 , 进而 讲解 如 何 实现 
们 ， 借 以 解决 手写 数字 识别 问题 。 

下 一 章 将 进一步 研究 模式 问题 , 但 研究 的 不 再 是 图 像 中 的 模式 ， 而 将 学 习 使 用 传感器 数据 中 
的 时 序 依赖 处 理 模式 问题 。 
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利用 手机 传感器 进行 
行为 识别 








上 一 章 主要 讲 了 图 像 中 的 模式 识别 问题 ， 而 本 章 主要 讲解 如 何 识 别传 感 器 数据 中 的 模式 。 相 
比 于 图 像 ， 这 些 模 式 带 有 时 序 依 赖 。 我 们 将 讨论 如 何 通过 手机 内 置 的 惯性 传感器 识别 日 常 行 为 ， 
比如 步行 、 坐 下 、 跑 步 等 。 此 外 ,本 章 还 将 提供 一 些 有 关 研 究 的 参考 ,着 重 介绍 行为 识别 社区 中 
的 一 些 最 佳 实践 。 


本 章 内 容 涵盖 如 下 主题 : 


口 行为 识别 简介 ， 包 括 手 机 传 感 顺 与 行为 识别 流水 线 
口 从 移动 设备 收集 传感器 数据 

口 讨论 行为 分 类 与 模型 评价 

口 部 署 行 为 识别 模型 











9.1 行为 识别 简介 


行为 识别 是 行为 分 析 中 一 个 基础 步骤 ,广泛 应 用 于 健康 生活 、 健 身 跟 踪 、 远 程 协助 、 安 保 应 
用 、 老 年 人 护理 等 领域 。 从 加 速度 传感器 、 陀 螺 仪 传感器 、 压 力 传感器 、GPS 等 传感器 获取 的 都 
是 低级 数据 ， 行 为 识别 要 将 这 些 数据 转换 为 高 级 的 行为 原 语 (behavior primitives ) 描述 。 大 多 数 
情况 下 ， 有 些 行为 是 基本 的 ， 比 如 步行 、 坐 卧 、 跳 跃 等 ， 如 图 9-1 所 示 ; 还 有 些 行为 比较 复杂 ， 
比如 去 工作 、 准 备 早饭 、 购 物 等 。 



















































































图 9-1 ”基本 行为 


本 章 将 讨论 如 何 向 移动 应 用 添加 行为 识别 功能 。 首先， 先 了 解 行为 识别 问题 是 什么 、 需 要 收 
集 哪 类 数据 、 面 临 的 主要 困难 以 及 如 何 解决 。 


然后 ， 通 过 一 个 例子 向 大 家 演示 如 何在 一 个 Android 应 用 中 实现 行为 识别 功能 ， 包 括 数据 收 
集 、 数 据 转 换 以 及 创建 分 类 器 。 


让 我 们 开始 吧 ! 



































9.1.1 手机 传感器 


先 了 解 一 下 手机 传感器 有 哪些 ， 以 及 它们 能 提供 什么 。 目 前 ,大 部 分 智能 设备 都 内 置 了 一 些 
传感器 , 用 于 感知 运动 、 位 置 、 方 向 以 及 周围 环境 条 件 。 由 于 传 感 带 能 够 提供 高 精确 度 、 高 频率 、 
高 准确 度 的 数据 ， 所 以 可 以 使 用 这 些 数 据 重 建 用 户 复杂 的 移动 、 手 势 、 运 动 等 动作 。 各 种 应 用 经 
常会 用 到 传感器 ， 比 如 陀螺 仪 数据 可 以 控制 游戏 中 的 某 个 对 象 ，GPS 数 据 可 以 定位 用 户 ， 加 速度 
传感器 数据 推断 用 户 正在 做 的 动作 ， 如 骑 自 行车 、 跑 步 或 步行 。 


图 9-2 的 几 个 例子 展示 了 用 户 通 过 这 些 传感器 可 以 做 的 交互 动作 。 









































加 速度 传感器 担 持 感应 器 





图 9-2 ”用 户 通过 手机 传感器 可 以 做 的 交互 动作 
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手机 中 内 置 的 传 感 顺 大 致 可 划分 为 如 下 3 类 。 


D 运动 传感器 ; 沿 着 3 个 相互 垂直 的 坐标 铀 测量 加 速度 与 旋转 力 。 这 类 传感器 包括 加 速度 传 
感 器 、 重 力 传感器 与 陀螺 仪 传感器 。 

D 环境 传感器 : 用 于 测量 各 种 环境 参数 ， 比 如 昭明、 温度、 压力 、 湿 度 。 这 类 传感器 有 气 
压 计 、 光 度 计 、 温 度 计 。 

D 位 置 传感器 ， 用 于 测量 设备 的 物理 位 置 。 这 类 传感器 有 方向 传感器 与 磁力 计 。 
































有 关 不 同 移动 平台 更 详细 的 描述 ， 请 访问 如 下 页 面 。 

口 Android 传感器 框架 : http://developer.android.com/guide/topics/sensors/ 
pr sensors_overview. html 

口 iOS Core 运 动 框架 : https://developer.apple.com/library/ios/documentation/ 


CoreMotion/Reference/CoreMotion_Reference/ 





UU Windows Phone: https://msdn.microsoft.com/en-us/library/windows/apps/hh 
202968(v=Vvs.105). aspx 


本 章 将 只 用 到 Android 传 感 器 框架 。 





9.1.2 行为 识别 流水 线 


前 面 讲解 了 对 称 名 数据 做 分 类 的 内 容 , 与 之 相 比 , 对 多 维 时 序 传 感 器 数据 做 分 类 本 身 要 复杂 
得 多 。 首 先 ， 从 时 间 上 看 ,每 次 观测 都 与 上 一 次 和 下 一 次 观测 相连 ， 这 使 得 我 们 很 难 只 对 单个 观 
测 集 做 简单 分 类 。 其 次 ,在 不 同时 间 点 从 传感器 随机 获取 的 数据 是 不 可 预测 的 ,因为 它们 可 能 受 
到 传感器 噪声 、 环 境 干扰 或 其 他 各 种 因素 影响 。 而 且 ， 一 个 行为 可 由 多 个 子 行为 组 成 ， 每 个 子 行 
为 以 不 同方 式 做 出 ， ne ed 这 会 产生 很 高 的 组 内 差异 。 最 后 ,所 有 这 些 
原因 会 让 一 个 行为 识别 模型 变 得 不 准确 ,经 常 将 新 数据 分 错 类 。 对 于 一 个 行为 识别 分 类 名, 要求 
的 特性 之 一 是 它 要 在 识别 的 行为 序列 中 保持 连续 性 和 一 致 性 。 


为 了 应 对 这 些 挑战 ， 将 行为 识别 应 用 于 图 9-3 所 示 流 水 线 。 

















二 




















特征 向 量 


图 9-3 行为 识别 应 用 流水 线 
在 第 一 步 中 ,尽量 去 除数 据 中 的 噪声 ， 常 用 的 方法 有 降低 传感器 采样 率 、 移 除 异 常 值 、 使 用 
高 通 / 低 通 滤波 器 等 。 接 下 来 ， 构 建 一 个 特征 向 量 ， 例 如 ， 通 过 使 用 离散 传 里 时 变换 ( DFT ) 方 
法 ,将 传感器 数据 从 时 间 域 转换 为 频率 域 。DEFT 方 法 接收 一 系列 样本 输入 ， 然 后 返回 一 系列 按照 
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频率 排列 的 正弦 系数 ， 它 们 表示 源 采样 中 出 现 的 频率 的 组 合 。 


关于 侍 里 叶 交 换 ，Pete Bevelacqua 写 了 一 篇 不 错 的 介绍 文章 ， 请 前 往 


局 http:Wwww.thefouriertrans-form.com 阅 读 。 
KW 如 果 想 了 解 更 多 有 关 傅 里 叶 变 换 的 技术 与 理论 背景 , 请 观看 Robert Gallanger 


与 Lizhong Zheng 两 人 的 MIT 公 开课 的 第 8 讲 与 第 9 讲 : 


http://theopenacademy.com/content/principlesdigital-communication 











接 下 来 , 基于 特征 向 量 与 训练 数据 集 , 我 们 可 以 创建 一 个 行为 识别 模型 , 它 把 一 个 原子 操作 
赋予 每 次 观测 。 因 此 ， 对 于 每 次 新 的 传感器 读数 ， 模 型 会 输出 最 有 可 能 的 行为 标签 。 然 而 ， 模 型 
会 犯错 。 故 而 在 最 后 一 步 ， 通 过 移 除 现 实 中 不 会 出 现 的 转换 ， 在 行为 之 间 做 平滑 转换 。 比 如 , 在 
少 于 半 秘 的 时 间 内 ,在 “ 躺 着 -站 起 - 躺 着 ”动作 之 间 完 成 转换 是 不 可 能 的 , 所 以 把 动作 之 间 这 样 
的 转换 平滑 为 “ 躺 着 - 躺 着 - 躺 着 ”。 


创建 行为 识别 模型 时 使 用 的 是 监督 学 习 方 法 ,， 它 由 训练 与 分 类 步 又 组 成 。 训 练 步骤 中 , 使 用 
一 组 带 有 标签 的 数据 训练 模型 。 第 二 步 是 使 用 训练 过 的 模型 为 新 的 、 未 见 过 的 数据 指派 标签 。 这 
两 个 阶段 中 ， 数 据 必须 使 用 同一 套 工 具 做 预 处 理 ， 比 如 过 滤 与 特征 向 量 计 算 。 
后 处 理 阶 段 ( 移 除 虚假 行为 ) 本 身 也 可 能 是 一 个 模型 ， 因 此 也 需要 进行 学 习 。 在 此 情形 下 ， 
预 处 理 步 又 还 包括 行为 识别 ,这 让 分 类 器 的 安排 变 成 了 一 个 元 学 习 问题 。 为 了 避免 过 拟 合 ， 最 重 
要 的 是 让 训练 后 处 理 阶段 时 使 用 的 数据 集 与 训练 行为 识别 模型 所 用 的 数据 集 不 一 样 。 

我 们 将 大 致 跟着 Andrew 工 Campbell 教 授 所 讲 的 智能 手机 编程 课程 来 做 ， 他 来 自 达 特 茅 斯 大 
学 。 在 课程 中 ， 他 开发 了 一 款 收 集 数据 的 移动 App( Campbell，2011 )， 后 面 会 用 到 它 。 




















Ve: 

















































































































9.1.3 ”计划 
计划 由 训练 阶段 与 部 署 阶段 组 成 。 训 练 阶 段 可 归结 为 如 下 步骤 : 


口 安装 Android Studio， 导 入 MyRunsDataCol|ector.zip。 

口 在 你 的 Android 手 机 中 加 载 应 用 。 

口 收集 你 的 数据 ， 比 如 站 立 、 步 行 、 跑 步 ， 把 数据 转换 为 一 个 特征 问 量 ,包括 FFT 变 换 。 不 
必 惊 慌 ， 我 们 无 需 编写 FFT 这 类 低级 信号 处 理 函 数 ， 因 为 会 使 用 现成 代码 去 做 这 个 工作 。 
数据 会 保存 到 你 的 手机 中 名 为 feat ures,arff 的 文件 。 

口 使 用 导入 的 数据 , 创建 并 评价 一 个 行为 识别 分 类 器 ,并且 实现 移 除 虚假 行为 转换 的 过 滤器 。 

口 将 分 类 器 放 回 移动 应 用 。 


如 果 没 有 Android 手 机 ,或 者 想 跳 过 所 有 与 移动 应 用 相关 的 步骤 ， 可 以 使 用 一 个 已 经 收集 好 
的 数据 集 ， 它 存在 于 dat a/ features.arff 文件 中 ， 然 后 直接 学 习 9.3 节 的 内 容 。 
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9.2 ”从 手机 收集 数据 


下 面 这 部 分 内 容 涉 及 规划 的 前 3 个 步骤 。 如 果 你 想 直 接 使 用 现成 的 数据 , 可 以 跳 过 本 节 内 容 ， 
直接 学 习 9.3 节 。 收 集 传 感 顺 数据 的 开源 移动 应 用 有 很 多 ，Prof.Campbell 编 写 的 那个 App 就 是 其 中 
之 一 , 本 章 将 使 用 它 收集 数据 。 这 个 应 用 为 不 同行 为 类 型 实现 了 收集 传感器 数据 的 功能 ， 比 如 站 
立 、 步 行 、 跑 步 等。 


先 准 备 Android 开 发 环境 。 如 果 已 经 安装 ， 可 以 直接 跳 到 9.2.2 节 。 














9.2.1 安装 Android Studio 





Android Studio 是 一 个 Android 平 台 开 发 环境 。 详 细 安 装 步 又 不 再 著述 ， 在 手机 启动 App 所 需 
的 基本 设置 保持 默认 值 不 变 即 可 。 关 于 Android 开 发 环境 的 详细 内 容 ， 建 议 阅读 Kyle Mew 编 写 的 
Android 5 Programming by Example— 书 。 

















首先 ， 从 http://developer.android.com/sdk/installing/index.html?pkg=studio 下 载 最 新 的 Android 
Studio 开 发 者 版 本 ， 然 后 根据 提示 进行 安装 。 整 个 安装 过 程 超过 10 分 钟 ， 所 需 空间 大 约 0.5 GB。 


安装 过 程 如 图 9-4 所 示 。 








全 2 Android Studio Setup Wizard 
gx Verify Settings 


If you want to review or change any of your installation settings, click Previous， 


Current Settings: 





Setwp type: 

Standard 

Destination Folder 
JUsers/bostjan/Library/ Android/ sdk 


Total Download Size: 
#32 MB 


Sdk Components to Download: 


Androld SDK Build-tools, revision 23.0.1 36,3 MB 
Android SDK Platform-tools, revision 23.0.1 2,37 MB 
Android SDK Tools, revision 24.4.0 97,1 MB 
Androld Support Repository. revision 24 142 MB 
Coogle Repository, revision 22 56,7 MB 





Intel x86 Emulator Accelerator (HAXM Installer), revision 5.5.0 219K8 


Cancel | [| previous | | Nex mn 














图 9-4 ”安装 Android Studio 开 发 者 版 本 


9.2.2 ”加 载 数据 采集 器 


首先 ， 从 http:/www.cs.dartmouth.edu/~campbell/cs65/code/myrunsdatacollector.zip 下 载 MyRuns- 
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Dat aCol 1 ector 源 代码 。 安装 好 Android Studio 之 后 , 选择 Open an existing Android Studio project， 
如 图 9-5 所 示 。 选 择 MyRuns DataCol1ector 文件 夹 ， 将 项 目 导 入 Android Studio。 





@ Android Studio Setup Wizard 


2 Welcome to Android Studio 


Recent Projects Quick Start 


Start a new Android Studio project 


Open an existing Android Studio project 


型 


No Project Open Yet 


] 45 


Check out project from Version Control 


Import project (Eclipse ADT, Gradle, etc.) 


中 


Import an Android code sample 


Configure 


古 交 加 


Docs and How-Tos 





Android Studio 1.4 Build 141.2288178. Check for updates now. 





图 9-5 ”将 项 目 导 入 Android Studio 


项 目 导 入 完成 后 ， 应 该 能 够 看 到 项 目 文件 结构 ， 如 图 9-6 所 示 。 如 你 所 见 ， 数 据 采 集 器 由 
CollectorActivity.java、Globals.java 与 SensorsService.java 组 成 。 项目 中 也 包含 
一 个 FFTjava 文 件 ， 它 用 来 进行 低级 信号 处 理 。 

















Android 命定 举人 
v CMyRunsDataCollector (~/Dropbox/ML Java Book/book/Chapt 
> .idea 
bg app 
> build 
> 四 libs 
v src 
” main 
assets 
了 java 
v Dcom 
v meapsoft 
@ FFT.java 
v edu 
Vv Ddarmouth 
v Dcs 
了 myrunscollector 
@ CollectorActivity.java 
@ Globals.java 
SensorsService.java 
> res 
3 AndroidManifest.xml 
引 app.iml 
© build.gradle 
到 lint.xml 


图 9-6 项 目 文件 结构 
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myrunscol1ector 是 最 主要 的 包 ， 包含 如 下 类 。 


口 6l| 0bal s.java: 定义 全 局 常量 ， 比 如 行为 标签 、ID 、 数 据 文 件 名 等 。 

口 Col 1ectorActivity.java: 该 类 实现 了 用 户 界面 操作 , 即 按 下 特定 按钮 时 会 发 生 什 么 。 
口 SensorsService,java: 该 类 实现 的 服务 用 来 收集 数据 、 计 算 特 征 向 量 ( 稍 后 讲解 )， 
以 及 将 数据 存储 到 手机 文件 。 


接 下 来 要 处 理 的 是 如 何 设计 特征 。 
特征 提取 























“为 人 类 行为 找到 合适 的 表示 ”可 能 是 行为 识别 中 最 具 挑 战 的 部 分 。 我 们 要 使 用 简单 旦 一 般 
的 特征 表示 行为 , 这 样 使 用 这 些 特 征 的 模型 才 具 有 一 般 性 , 才能 在 学 习 集中 很 好 地 区 分 一 些 行为 
与 另 一 些 行为 。 











事实 上 , 为 训练 集中 特定 的 观测 结果 设计 特征 并 不 难 ,并且 这 些 特征 也 会 有 很 好 的 工作 表现 。 
但 是 , 由 于 训练 集 抓 取 的 只 是 整个 人 类 行为 的 一 部 分 , 所 以 过 于 具体 的 特征 在 一 般 行 为 上 可 能 会 














待 分 类 的 新 样本 


YE EY EE 


Weka 训 练 标签 ，{ 静 止 ， 跑 动 ， 步 行 } 











OOO 


数据 集 














图 9-7 ”特征 提取 





下 面 看 看 这 在 MyRunsDataCollector 类 中 是 如 何 实 现 的 。 应 用 程序 启动 时 ， 
onSensorChanged( ) 方法 会 从 加 速度 传感器 得 到 3 个 带 有 特定 时 间 戳 的 读数 (x、>、z )， 并 且 根 
据 传 感 器 读数 计算 量 级 。 计 算 FFT 系 数 之 前 , 这 些 方法 缓存 高 达 64 个 连续 量 级 ( Campbell, 2015 ): 
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“如 左上 图 所 示 ，FFT 将 随时 间 变 化 的 振幅 的 时 间 序 列 转换 为 频率 大 小 (振幅 的 某 
种 表示 ); 例子 显示 的 是 菜 个 振荡 系统 ， 主 频率 在 4~8 周 / 秒 ( 称 为 赫 效 ，H ) ( 想象 有 一 


个 系 在 橡皮 筋 上 的 球 在 短 时 间 内 拉 伸 、 振 荡 ， 或 者 你 在 步行 、 跑 步 时 的 步 态 ) 





可 能 


有 人 见 过 这 样 的 时 间 域 与 频率 域 系 统 。x、y、z 加 速度 器 读数 和 大 小 是 时 间 域 交 量 。 我 
们 将 这 些 时 间 域 数据 转换 为 频率 域 ， 因 为 这 能 产生 紧凑 的 分 布 ， 分 类 器 会 使 用 它 创 建 决 
策 树 模 型 。 比 如 ， 转 置 为 频率 域 的 振幅 率 看 上 去 可 能 像 图 底部 的 散 点 ， 顶 部 散 点 是 时 间 
域 ， 底 部 散 点 是 把 时 间 域 转换 为 频率 域 的 样子 。 

训练 阶段 也 会 使 用 采集 器 存储 (m0...m63) 的 最 大 (MAX ) 量 级 与 用 户 提供 的 标签 ( 比 
如 步行 )。 个 别 特征 会 被 计算 为 量 级 (f0...f63 )、MAX 量 级 和 类 标签 。 


下 面 开始 收集 实际 数据 。 


9.2.3 ”收集 训练 数据 











现在 ， 可 以 使 用 采集 器 为 行为 识别 收集 训练 数据 。 采 集 器 默认 支持 3 种 行为 : 站 立 、 步 行 、 











跑步 ， 在 下 面 应 用 程序 的 屏幕 截图 中 可 以 看 到 它们 。 
你 可 以 先 选 择 一 个 行为 ， 即 目标 类 值 ， 然 后 点 击 START COLLECTING 按 钮 开始 记录 数据 。 














收集 数据 时 ， 请 确保 每 个 行为 记录 时 间 不 少 于 3 分 钟 。 比 如 选择 Walking 行 为 ， 点 击 START 
COLLECTING 按 钮 之 后 , 要 在 周围 走动 不 少 于 3 分 钟 。 等 到 3 分 钟 后 , 点 击 STOP COLLECTING 
按钮 停止 收集 数据 。 针 对 每 个 行为 做 数据 收集 时 ， 只 要 重复 这 个 过 程 即 可 。 


此 外 ， 你 还 可 以 收集 包含 这 些 行为 的 不 同 场景 ， 比 如 在 厨房 中 走动 、 在 户外 走动 、 治 直线 行 
走 等 。 这 样 ， 你 将 拥有 每 个 行为 类 的 更 多 数据 ， 以 及 更 好 的 分 类 器 。 这 很 有 道理 , 不 是 吗 ? 数据 

















积累 多 个 记录 实例 即 可 。 


请 注意 , 点 击 DELETE DATA 






































越 多 ， 分 类 器 就 越 少 迷茫 。 如 果 你 只 有 少量 数据 ， 就 会 发 生 过 拟 合 问题 ， 分 类 器 就 会 犯 迷糊 ， 分 
不 清 行走 中 的 站 立 、 小 跑 式 的 行走 。 数 据 越 多 ， 它 们 就 越 不 会 迷糊 。 进 行 调 试 时 ， 为 每 个 行为 收 
集 数据 的 时 间 可 能 少 于 3 分 钟 。 但 对 于 最 终 成 品 ， 数 据 越 多 ， 性 能 越 好 。 只 要 在 相同 文件 中 简单 





按钮 后 ,存储 在 手机 文件 中 的 数据 会 被 删除 。 如 果 想 重新 开始 ， 





请 先 点 击 DELETE DAIA 按 钮 ， 否 则 新 采集 的 数据 会 被 添加 到 文件 未 尾 。 
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Collector 


[ORE 
© walking 
(二 Running 
(©) Others 


START COLLECTING 


DELETE DATA 





图 9-8 点 击 DELETE DATA 按 钮 














采集 器 实现 了 我 们 前 面 提 到 的 示意 图 : 它 收 集 加 速度 计数 据 样本 、 计 算 大 小 、 使 用 FFT.j ava 
类 计算 系数 ,并且 生 成 特征 向 量 。 然 后 ， 将 数据 存储 到 Weka 格 式 的 f eat ures. arff 文件 。 根据 
收集 的 数据 量 的 大 小 ， 特 征 向 量 的 数目 不 一 样 。 收 集 数据 的 时 间 越 长 ， 累 积 的 特征 向 量 越 多 。 





























停止 使 用 采集 器 工具 收集 训练 数据 之 后 ， 需 要 抓 取 数据 让 工作 流 继续 。 可 以 使 用 Android 
Device Monitor 中 的 文件 浏览 器 , 将 feat ures.arff 文件 从 手机 上 传 到 电脑 进行 保存 。 点 击 菜单 
右 侧 的 Android 机 器 人 小 图 标 ， 可 以 访问 Android Device Monitor， 如 图 9-9 所 示 。 











上身 [ 嘱 app=|] 有 也 租约 :和 晶 案 全 轩 久 : 交 





图 9-9 访问 Android Device Monitor 


在 左 侧 窗 格 中 选择 你 的 设备 ， 手 机 中 存储 的 内 容 就 会 显示 在 右 侧 。 导 航 到 mnt/ shel1/ 
emul ated/Android/data/edu.dartmouth,.cs,.myrunscol|lector/files/features.arff, 
如 图 9-10 所 示 。 
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@Oe Android Device Monitor 
目 Devices 3 中 口 | 总 Threads | 园 Heap 国 Allocation Tracker | 合 Network Statistics | 局, File Explorer 汉 | 狗 Emulator Control | 口 System Information 
次 | 目 良 上 自 | 乞 户 | 玉 | 二 | 由 Name else ld lenisons lo 
二 initzygote32.re 301 1969-12-31 19:00 -rwxr-x--- 
er YE mnt 1970-01-29 22:38 drwxrwxr-x 
TO e077 Sasec 1970-01-29 22:38 drwxr-xr-x 
TFT > CG media_w 1970-01-29 22:38 drwx------ 
* Cobb 1970-01-29 22:38 drwxr-xr-x 
Bsdcard 1970-01-29 22:38 Inwxrwxrwx -> /stora 
> Gsecure 1970-01-29 22:38 drwx------ 
v Gshell 1970-01-29 22:38 drwx-- 一 -- 
v Cemulated 1970-01-25 08:22 drwxrwx--x 
Yeo0 2015-02-08 13:03 drwxrwx--x 
» GAlarms 1970-01-25 08:22 drwxrwx--- 
vAndroid 2015-02-08 12:53 drwxrwx--x 
vdata 2015-02-08 18:47 drwxrwx--x 
> (com.android.vending 2015-02-08 12:52 drwxrwx--- 
* Gcom.google.android.GoogleCamera 1970-01-25 08:22 drwxrwx--- 
> Gy com.google.android.apps.magazines 1970-01-25 08:22 drwxrwx--- 
> Ccom.google.android.apps.maps 2015-02-05 19:56 drwxrwx--- 
> Ccom.google.android.gms 2015-02-08 00:04 drwxrwx--- 
> Gcom.google.android.googlequicksearchbox 2015-02-05 19:56 drwxrwx--- 
> GB com.google.android.music 1970-01-25 08:22 drwxrwx--- 
> Gcom.google.android.videos 1970-01-25 08:22 drwxrwx--— 
> GE com.google.android.youtube 1970-01-25 08:22 drwxrwx--- 
> Gcom.sina.weibo 2015-02-08 12:52 drwxrwx--— 
* Gedu.dartmouth.cs.myruns 2015-02-08 18:47 drwxrwx--- 
v edu.dartmouth.cs.myrunscollector 2015-02-07 22:28 drwxrwx--- 
Efiles 2015-02-08 12:07 drwxrwx--- 
> Corg_share_data 2015-02-08 12:53 drwxrwx--x 
» 全 ,DCIM 1970-01-27 00:41 drwxrwx--- 
> CG Download 1970-01-25 08:22 drwxrwx--- 
> EE Movies 1970-01-25 08:22 drwxrwx--- 
池 LogCat 员 | 国 Console 
Saved Filters 中 一 0 r i 

















图 9-10 ”选择 设备 并 导航 


为 了 将 feat ures.arff 文件 上 传 到 你 的 计算 机 ， 需 要 先 选 择 该 文件 ( 高 亮 显 示 ), 然后 点 击 
Upload 按 钮 。 


下 面 创建 分 类 器 。 




















9.3 创建 分 类 器 


一 且 将 传感器 数据 样本 表示 为 带 有 类 别 指派 的 特征 向 量 ， 我 们 就 可 以 应 用 常规 技术 监督 分 
类 ， 包 括 特征 选择 、 特 征 离散 化 、 模 型 学 习 、k 折 交 又 验证 等 。 本 章 不 会 深入 探究 机 器 学 习 算 法 
的 细节 。 可 以 应 用 任何 一 种 支持 数字 特征 ( numerical features ) 的 算法 ， 包 括 SVM 、 随 机 森林 、 
AdaBoost、 决 策 树 、 神 经 网 络 、 多 层 感 知 器 等 。 


先 从 简单 的 决策 树 开 始 : 加 载 数据 集 、 创 建 类 别 属性 、 创 建 决策 树 模型 、 输 出 模型 。 


String databasepath = "/Users/bostjan/Dropbox/ML java Book/book/ 
datasets/chap9/features.arff",; 











1 1 加 载 afff 格式 数据 
|nstances data = new lnstances(new BufferedReader(new FileReader(databasepath)))， 





/1 设置 C1 355 的 最 后 属性 为 类 别 
data.setClasslndex(data.numAttributes() - 1); 


1 1 创建 基本 的 决策 树 模型 

String[] options = new String[]{}; 
j48 model = new J 48(); 

model .setOptions(options); 

model .buildClassifier(data) 


1 1 输出 决策 树 
System.out.println("Decision tree model:\n"+model}); 


算法 输出 模型 如 下 : 


Decision tree model 
)48 pruned tree 


ax <= 10,353474 
fft_coef_0000 <= 38,193106: standing (46,0) 
fft_ coef 0000 > 38,193106 
fft_ coef 0012 <= 1.817792: walking (77.0/1.0) 
| fft_ coef 0012 > 1,817792 
| | max <= 4,573082: running (4.0/1.0) 
| | max > 4.573082: walking (24.0/2.0) 
ax > 10,353474: running (93.0) 


— 


Number of Leaves : 5 
Size of the tree : 9 


这 个 决策 树 相 当 简单 , 看 上 去 也 很 准确 ， 因 为 终端 节点 中 多 数 类 的 分 布 相当 高 。 下 面 对 一 个 
基本 的 分 类 器 进行 评价 ， 以 验证 结果 : 


11 使 用 10 折 交叉 验证 检测 模型 准确 度 

















Eval uation eval = new Eval uation(data) 
eval.crossValidateModel (model, data, 10, new Random(1), new 
开国 本 于 是 


System.out.println("Model performance:\n"+ 
eval .toSummaryString()); 


输出 如 下 模型 性 能 : 





Correctly Classified lnstances 226 92,623 % 
Incorrectly Classified lnstances 18 7.377 % 
Kappa statistic 0.8839 

Mean absol ute error 0.0421 

Root mean squared error 0.1897 

Relative absol ute error 13,1828 % 

Root relative squared error 47,519 % 

Coverage of cases (0.95 level) 93,0328 % 

Mean rel, region size (0.95 level) 27,8689 % 


Total Number of lnstances 244 
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从 上 述 结果 可 以 看 到 , 模型 做 分 类 的 准确 度 非常 高 , 达到 令 人 吃惊 的 92.62%。 之 所 以 能 有 这 
样 好 的 结果 ， 一 个 重要 原因 在 于 我 们 的 评价 设计 。 我 的 意思 是 : 这 些 连 续 的 实例 彼此 非常 类 似 ， 
如 果 在 10 折 交叉 验证 中 对 其 随机 划分 ,很 有 可 能 会 让 训练 与 测试 所 用 的 实例 几乎 完全 相同 。 因此 ， 
使 用 简单 的 x 折 交 又 验 证 评估 模型 性 能 时 ,结果 很 乐观 。 


一 个 更 好 的 方法 是 , 使 用 对 应 于 不 同 组 测度 或 者 不 同人 群 的 折 。 比 如 ， 可 以 使 用 应 用 程序 收 
集 5 个 人 的 学 习 数 据 ， 然 后 运行 人 交叉 验证 (k-person cross validation )。 模 型 使 用 4 个 人 的 学 习 数 
据 做 训练 ， 然 后 借助 第 5 个 人 做 测试 。 针 对 每 个 人 重复 这 一 过 程 ， 并 且 对 结果 做 平均 。 这 样 会 让 
我 们 对 模型 性 能 的 评估 更 加 合理 。 


先 将 模型 评估 的 讨论 搁置 ， 下 面 看 看 如 何 处 理 分 类 带 错 误 。 




































































9.3.1 减少 假 性 转换 

在 行为 识别 流程 的 最 后 一 步 , 我 们 要 确保 分 类 不 会 太 易 变 。 也 就 是 说 , 我 们 不 希望 行为 每 毫 
秒 都 发 生 改变 。 对 于 这 个 问题 , 一 个 基本 解决 方法 是 设计 一 个 过 滤器 ,过滤 行为 序列 中 快速 改变 
的 行为 。 

创建 一 个 过 滤器 , 记 住 最 后 窗口 活动 , 并 返回 最 频繁 的 行为 。 如 果 有 多 个 行为 拥有 相同 分 数 ， 
它 会 返回 最 近 一 个 。 

首先 ， 新 建 一 个 类 5puriousActivityRemoval ， 它 包含 一 个 行为 列表 与 wi ndo Ww 参数: 


class SpuriousActivityRemoval{ 














List<Object> last,; 
int window; 


public SpuriousActivityRemoval (int window){ 
this.last = new ArrayLlist<0bj ect>(); 
this.window = window; 


} 
接着 ,创建 0bj ect filter(0bj ect) 方 法 ， 它 接收 一 个 行为 ,返回 经 过 过 滤 的 行为 。 这 个 
方法 先 检查 我 们 是 否 有 足够 的 观测 值 ， 如 果 没 有 ， 它 会 简单 地 存储 传 入 的 观测 值 并 将 其 返回 , 代 
但 如 下 : 
public Object filter(Object obj){ 
if(last.size() < window){ 
last.add(o0bj); 
return obj; 
} 
如 果 已 经 收集 了 wi ndow 个 观测 值 ， 那 么 简单 返回 最 频繁 的 观测 值 ， 移 除 最 旧 的 观测 值 ， 并 
插入 新 观测 值 。 

















Object 0 = getMostFrequentEl ement (1ast); 
last.add(o0bj); 

last.remove(0); 

return o; 


} 


上 述 代码 用 到 了 get MostFrequentElement () 方 法 ， 它 返回 列表 中 最 频繁 的 对 象 。 可 以 使 
用 HashMap 实 现 这 个 方法 ， 代 人 码 如 下 : 


private Object getMostFrequentEl ement (List<Object> |ist){ 


HashMap<String, lnteger> objectCounts = new HashMap<String, 
lInteger>(); 

Integer frequntCount = 0， 

Object frequent 0bject = null,; 


接 下 来 , 遍历 链表 中 的 所 有 元 素 , 将 每 个 唯一 元 素 插入 HashMap。 如 果 它 已 经 存在 于 HashMap 
中 ， 则 更 新 计数 。 在 循环 的 最 后 ， 存 储 目前 找到 的 最 频繁 的 对 象 ， 代 码 如 下 : 


for(0bject obj : list)f{ 
String key = obj.toString(); 
Integer count = objectCounts.get(key) 
if(count == nul|l)f{ 

count = 0; 











objectCounts.put (key, ++count),; 


if (count >= frequntCount){ 
requntCount = count 
requentObject = 0bj; 





} 


return frequentObject 


} 
} 
运行 一 个 简单 的 例子 : 


String[] activities = new String[]{"Walk"”, Walk "Walk", "Run", 
了 

SpuriousActivityRemoval dlpFilter = new 
SpuriousActivityRemoval (3) 

for(String str : activities){ 
System.out.println(str +" -> "+ dlpFilter.filter(str)); 








} 

上 面 这 个 例子 输出 如 下 行为 : 
Walk -> Walk 

Walk -> Walk 


Walk -> Walk 
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Run -> Walk 
Walk -> Walk 
Run -> Walk 
Run -> Run 
Sit -> Run 
Sit -> Run 
Sit -> Sit 


























输出 结果 是 
以 接受 ， 除 非 它 对 应 用 程序 至 关 重 要 。 








一 个 连续 的 行为 序列 ,也 就 是 说 ,我 们 没 做 快速 改变 。 这 会 带 来 一 些 延迟 ,但 可 


将 分 类 器 识别 过 的 n 个 过 往 行 为 人 妃 加 到 特征 向 量 ， 由 此 可 以 增强 行为 识别 的 能 力 。 但 这 样 做 




















会 带 来 风险 , 即 可 能 会 让 机 器 学 习 算 法 认为 当前 行为 总 是 跟前 


个 








个 行为 一 样 , 这 种 情况 时 常 发 生 。 





对 于 这 个 问题 ， 我 们 可 以 使 用 两 个 分 类 器 〈A 与 B ) 加 以 解决 : 分 类 器 B 的 属性 向 量 包 含 " 个 过 往 





行为 ， 这 些 过 往 行为 由 分 类 需 A 识 别 。 分 类 需 A 的 属性 向 量 不 包含 任何 过 往 行为 。 这 种 情形 下 ， 
即使 B 为 过 往 行为 给 出 很 大 权重 ， 分 类 咒 A 识 别 的 过 往 行 为 也 会 变 ， 因 为 分 类 器 A 不 受 分 类 器 B 的 





国 / 
宗 乡 啊 o 

















接 下 来 要 做 的 就 是 ， 将 分 类 器 与 过 滤器 嵌入 我 们 的 移动 应 月 


9.3.2 ”将 分 类 器 幅 入 移动 应 用 


有 两 种 方法 可 以 将 一 个 分 类 器 人 能 入 移动 应 用 。 第 一 种 方法 是 ， 以 Weka 格 式 导 出 一 个 模型 ， 





O 











将 Weka 库 用 作 移 动 应 用 的 一 个 依赖 、 加 载 模型 等 。 整 个 过 程 和 第 3 章 看 到 的 例子 是 一 样 的 。 第 二 





个 方法 更 加 轻 量 化 ,将 模型 以 源 代 码 形 式 导出 ， 比 如 创建 一 个 类 ， 
代码 复制 粘贴 到 移动 应 用 ,没有 任何 导入 Weka 依 赖 的 事件 











O 








实现 决策 树 分 类 融 。 然 后 将 源 








幸运 的 是 ， 使 用 osourcel String) 函数 可 以 很 轻松 地 将 一 些 Weka 模 型 导出 为 源 代码 。 





1 / 输出 实现 了 决策 树 的 源 代码 
System.out.println("Source code:\n" + 
model .toSource("ActivityRecognitionEngine")); 


上 述 代码 将 我 们 的 模型 输出 为 一 个 ActivityRecognitionEngine 类 。 接 下 来 ,详细 看 看 


输出 得 到 的 ActivityRecognitionEngine 类 的 代码 : 
class ActivityRecognitionEngine { 


public static double classify(Object[] i) 
throws Exception { 


double p = Double.NaN 
p = ActivityRecognitionEngine. N17a7cec20(i); 
return p; 

} 

static double N17a7cec20(0bject [1i) { 
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double p = Double. NaN; 

if (i[64] == null) { 

p= 1; 

} else if (((Double) i[64]).doubleVal ue() <= 10.353474) { 

p = ActivityRecognitionEngine. N65b3120a1l(i); 

} else if (((Double) i[64]).doubleVal ue() > 10.353474) { 
p = 2; 

} 


return p; 


ActivityRecognitionEngine 类 实现 了 我 们 之 前 讨论 的 决策 树 。 机 器 随 生成 的 函数 名 ( 比 
如 N17a7cec20( 0bj ect []) ) 对 应 于 决策 树 的 节点 。 这 个 分 类 器 可 以 通过 cl assify(0bject[]) 
方法 进行 调用 , 并 且 调 用 时 要 传人 一 个 特征 向 量 。 这 个 特征 向 量 可 以 通过 我 们 前 面 介 绍 的 过 程 获 
得 ， 它 返回 一 个 double 值 ， 表 示 类 标签 索引 。 





9.4 小 结 


本 章 讨 论 了 如 何 为 移动 应 用 实现 一 个 行为 识别 模型 。 我 们 了 解 了 整个 过 程 ， 包 括 数据 收集 、 
特征 提取 、 建 立 模型 、 评 价 模型 以 及 部 署 模型 。 


下 一 章 将 学 习 另 一 个 Java 库 一 Mallet， 它 用 于 进行 文本 分 析 。 

















利用 Mallet 进 行文 本 挖 据 一 一 
主题 模型 与 垃圾 邮件 检测 

















本 章 先 讨论 文本 挖掘 的 定义 以 及 可 以 进行 的 分 析 , 以 及 为 何 将 其 应 用 于 应 用 程序 。 再 讨论 如 
何 使 用 Mallet 一 一 一 个 处 理 自然 语言 的 Java 库 ， 包 括 数据 导入 与 文本 预 处 理 。 然 后 了 解 文本 挖掘 
的 两 个 具体 应 用 : 主题 模型 与 垃圾 邮件 检测 , 在 主题 模型 中 , 我 们 将 讨论 如 何 使 用 文本 挖掘 技术 
从 不 曾 阅读 过 的 文本 文档 中 识别 主题 ; 在 垃圾 邮件 检测 中 , 我 们 将 讨论 如 何 自动 为 文本 文档 进行 


分 类 。 


本 章 内 容 涵盖 如 下 主题 : 
口 文本 挖掘 简介 

口 安装 与 使 用 Mallet 

口 主题 模型 
口 垃圾 邮件 检测 


















































10.1 文本 挖掘 简介 

文本 挖掘 也 叫 文本 分 析 , 指 的 是 从 文本 文档 自动 提取 高 质量 信息 的 过 程 。 这 些 文本 文档 大 部 
分 是 使 用 自然 语言 写成 的 ， 高 质量 信息 是 那些 紧密 相关 、 新 颖 又 有 趣 的 信息 。 

一 个 典型 的 文本 分 析 应 用 是 扫描 一 组 文档 产生 搜索 索引 ， 文 本 挖掘 可 以 应 用 到 其 他 许多 领 
域 , 包括 文本 分 类 (分 类 到 特定 域 )、 文 本 聚 类 ( 自动 组 织 一 组 文档 )、 情 绪 分 析 ( 识别 与 提取 文 
档 中 的 主观 信息 )、 概 念 /实体 提取 (可 以 从 文档 中 识别 人 、 地 点 、 组 织 、 其 他 实体 )、 文 档 摘 要 
( 自动 给 出 源 文档 中 最 重要 的 观点 )、 学 习 命 名 实体 间 的 关系 。 

基于 统计 模式 挖掘 的 过 程 通常 包含 如 下 步 又: 

(1) 信息 检索 与 提取 ; 

(2) 将 无 结构 文本 数据 转换 为 有 结构 数据 ， 比 如 分 析 、 移 除 噪声 单词 、 词 汇 分 析 、 计 算 词 频 、 
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撤 取 语言 特征 等 ; 
(3) 从 结构 化 数据 与 标注 /注释 发 现 模式 ; 
(4) 评价 与 解释 结果 。 


本 章 后 半 部 分 将 学 习 文 本 挖掘 的 两 个 应 用 : 主题 模型 与 文本 分 类 。 接 下 来 ， 先 看 看 它们 能 做 
什么 。 











10.1.1 主题 模型 


主题 模型 是 一 种 无 监督 技术 , 如 果 你 需要 分 析 一 个 包含 大 量 文本 文档 的 档案 , 希望 了 解 该 档案 
包含 的 内 容 , 但 又 不 想 亲 自 阅读 每 个 文档 , 这 时 主题 模型 就 很 有 用 。 文 本 文档 可 以 是 博客 文章 、 电 
子 邮 件 、 推 文 、 文 件 、 图 书 章节 、 日 记 等 。 主 题 模型 在 文本 语料库 中 寻找 模式 ， 更 准确 地 说 ， 它 采 
用 一 种 有 统计 意义 的 方式 识别 主题 ， 并 组 成 单词 表 。 最 有 名 的 算法 是 隐 含 狄 利克 雷 分 布 (Latent 
Dirichlet Allocation，Blei 等 ，2003 )， 它 假设 作者 从 可 能 的 单词 篮 中 选择 单词 并 组 成 一 段 文 字 ， 每 
个 篮子 对 应 一 个 主题 。 借 助 这 个 假设 ， 这 个 算法 可 以 从 数学 上 把 文本 拆 解 到 相应 篮子 (baskets )， 
这 些 饶 子 是 拆 解 后 的 单词 最 有 可 能 的 来 源 。 然后 算法 不 断 迭 代 这 个 过 程 , 直到 它 将 所 有 词 分 配 到 最 
有 可 能 的 篮子 ， 我 们 把 这 些 篮 子 叫 作 “ 主 题 "。 


比如 ,如 果 针 对 一 系列 新 闻 文 章 使 用 主题 模型 ,算法 将 会 返回 一 系列 主题 以 及 最 有 可 能 组 成 
这 些 主题 的 关键 字 。 借 用 新 闻 文 章 的 例子 ， 列 表 看 起 来 可 能 像 下 面 这 样 : 


口 Winner ( 获胜 者 )、goal ( 射门 )、football ( 足球 )、score ( 得 分 )、first place( 第 一 名 ) 
口 Company ( 公司 )、stocks ( 股票 )、bank ( 银行 )、credit ( 信用 )、business ( 生意 ) 
口 Election (选举 )、opponent ( 对 手 )、president ( 总 统 )、debate ( 辩论 ) upcoming ( 即将 
来 临 ) 
通过 浏览 关键 字 , 我 们 能 够 知道 这 些 新 闻 文 章 与 体育 、 商 业 、 即 将 到 来 的 选举 有 关 。 本 章 后 
半 部 分 将 通过 这 个 新 闻 文 章 的 例子 学 习 实现 主题 模型 的 方法 。 































































































10.1.2 文本 分 类 


文本 分 类 的 目标 是 根据 文本 文档 的 内 容 , 将 一 个 文本 文档 划 入 一 个 或 多 个 分 类 。 这些 分 类 往 
往 是 一 个 更 普通 的 主题 ， 比 如 车 辆 、 宠 物 。 这 些 普通 的 类 别 就 是 主题 ， 分 类 任务 也 叫 文本 分 类 、 
主题 分 类 、 主 题 发 现 。 虽 然 我 们 可 以 根据 文档 类 型 、 作 者 、 印 刷 年 份 等 属性 对 文档 进行 分 类 ,但 
本 章 学 习 的 重点 是 只 根据 文档 内 容 进 行 分 类 。 文 本 分 类 的 例子 如 下 。 


口 对 电子 邮件 、 用 户 评论 、 网 页 等 垃圾 内 容 的 检测 
口 色情 内 容 检测 
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电子 邮件 进行 分 类 
































口 情绪 检测 : 自动 将 用 户 对 一 个 产品 或 服务 的 评论 划分 为 正面 评论 与 负面 评论 
口 根据 电子 邮件 内 容 对 
口 专题 搜索 : 搜索 引擎 将 搜索 限制 到 某 个 特定 主题 或 类 型 以 提供 更 准确 的 结果 


这 些 例子 表明 文本 分 类 在 信息 检索 系统 中 非常 重要 ， 
某 种 类 型 的 文本 分 类 器 。 本 书 所 用 的 分 类 任务 的 例子 是 通 


因此 大 部 分 现代 信息 检索 系统 都 在 使 用 
过 文本 分 类 检测 垃圾 邮件 。 


本 章 还 会 介绍 Mallet， 它 是 一 个 Java 包 ， 用 于 执行 自然 语言 统计 处 理 、 文 档 分 类 、 聚 类 、 主 
题 模 型 、 信 息 提 取 ， 以 及 其 他 针对 文本 的 机 噩 学 习 应 用 。 然 后 学 习 文本 分 析 (文本 分 类 ) 的 两 个 
应 用 : 主题 模型 与 垃圾 邮件 检测 。 


10.2 安装 Mallet 








进入 UMass Amherst University 网 站 ( http://mallet.cs.umass.edu/download.php ) 下 载 Mallet。 转 
到 Download 页 面 ， 选 择 最 新 稳定 版 本 〈 写作 本 书 时 是 2.0.8 ) 下 载 即 可 ， 如 图 10-1 所 示 。 
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| 1 MAchine Learning for LanguagE Toolkit 


Current release: The following packaged release of MALLET 2.0 is available: 
mallet-2.0.8RC3tar.gz mallet-2.0.8RC3,zip 


Until 2.0.8 is an offical release the old 2.0.7 release will remain available- 
2.0.8RC3 is much more stable than 2.0.7. 
mallet-2.0.7.targz mallet-2.0.7.zip (notes) 


Windows installation; After unzipping MALLET, set the environment variable 
WMALLET_HOME% to point to the MALLET directory. In all command line 
examples, substitute bisveallet for biyeallet 


Development release: To download the most current version of MALLET 2.0, 
use our public GitHub repository: 
git clone https://github.con/minno/Maller .git 
from the command prompt to get the Mallet package. 
To build a Mallet 2.0 development release, you must have the Apache ant bulld 


tool installed. From the command prompt, first change to the mallet directory, 
and then type 


If ant finishes with "BUILD SUCCESSFUL", Mallet is now ready to use. 


If you would like to deploy Mallet as part of a larger application, it is helpful to 
Create 3 single ".jor” file that contains all of the compiled code, Once you have 
compiled the individual Mallet class files, use the command 

se jar 


This process will create a file "mallet,jar in the "dist" directory within Mallet 


Older releases; MALLET version 0.4 is available for download, but is not being 
actively maintained. This release includes classes in the package 
Yedu.urmass,cs,mallet,base" While MALLET 2.0 contains classes in the package 
“cc.mallet" 


* mallet-2.0.5.tar.gz (notes) 

» mallet-2,0-RC4,tar.gz (notes) 
» mallet-2,0-RC3,.tar.gz (notes) 
» mallet-2.0-RC2.targz 


=。 mallet-2.0-RCLtar,oz 
* mallet-0.4.tar.qz 








下 载 ZIP 文 件 后 , 进行 解压 缩 。 在 解 有 





图 10-1 下 载 Mallet 








E 后 的 目录 中 , 你 应 该 能 够 看 到 一 个 名 为 di st 的 文件 夹 ， 


里 面 有 两 个 JAR 文 件 : mal 1 et .|j ar 与 mal1et-deps.jar。 其 中 ，mallet.jar 文 件 包 含 所 有 打包 好 
的 Mallet 类 ，mallet-deps.jar 包 含 所 有 依赖 文件 。 请 将 这 两 个 JAR 文 件 放 入 你 的 项 目 ， 当 作 引 用 包 ， 


如 图 10-2 所 示 。 
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Name 入 Size Kind 
* bin -- ”Folder 
男 build.xml 3KB XML 
» Ml class -- Folder 
v Bl dist -- Folder 
BE mallet-deps.jar 2,6MB Java JARfile 
BE mallet.jar Java JAR file 
* lb -- Folder 
LICENSE 12 KB TextEd...ument 
Makefile 4KB TextEd...ument 
男 pom.xml 3KB XML 
_] README.md 2 KB Markd...cument 
» MM sample-data -- Folder 
» Bl src -- Folder 
* Ml stoplists -- Folder 
» Ml test -- Folder 

















图 10-2 ”将 JAR 文 件 放 入 项 目 


如 果 你 使 用 的 是 Eclipse, 那么 在 Project 上 点 击 右键 , 选择 Properties, 再 选择 Java Build Path。 
在 Libraries 选 项 卡 中 ,， 点击 Add External JARs， 然后 选择 上 面 两 个 JAR 文 件 ， 并 进行 确认 ， 如 
10-3 所 示 。 

















roperties for Java OOo! 
© © P rties for JavaMLBook 
一 一 一 一 一 一 一 | 
| type filter text @) | Java Build Path rr 
| PResource 
Builders 小 Source 马 Projects EE Order and Export 
Java Build Path 
六 Java Code Style JARs and class folders on the build path: 
bP Java Compiler pb 总 ensembleLibrary.jar - JavaMLBookjlib Add JARs... 
P Java Editor > 加 jmathplot.jar - JavaMLBookjiib 
Javadoc Location > 加 localOutlierFactor.jar - JavaMLBook/lib Pd EN AR 
Project References a . aa don 
了 bP lao mallet-deps.jar - JavaMLBook/lib 
Refactoring History = : 
Run/Debug Settings PP aa mallet.jar - JavaMLBook/lib Add Variable... 
Pp Task Repository P aa weka-src.jar - JavaMLBook/lib 
Task Tags p 可 weka.jar - JavaMLBook/lib Add Library... 
P Validation b mi JRE System Library [Java SE 8 [1.8.0]] 
WikiText Add class Folder.. 
Add External Class Folder... 
@ cc | 


图 10-3 ”选择 并 确认 JAR 文 件 
接 下 来 ， 准 备 开 始 使 用 Mallet。 








10.3 ”使 用 文本 数据 
文本 挖掘 的 主要 挑战 之 一 是 , 将 没有 结构 的 自然 语言 转换 为 结构 化 的 基于 属性 的 实例 。 





> 
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过 程 包 含 许多 步骤 ， 如 图 10-4 所 示 。 


pe A 将 标记 转换 
除 停 POS， 词 形 还 原 PA 
移 除 停止 词 词 形 还 所 为 特征 空间 Ey 











图 10-4 “文本 挖掘 步 又 


首先 ， 从 网 络 、 现 有 文档 或 数据 库 提 取 一 些 文本 。 在 第 一 步 的 最 后 ， 文 本 仍然 是 XML 格式 
或 其 他 某 些 专 用 格式 。 因 此 , 接 下 来 的 一 步 是 提取 实际 文本 ， 并 将 其 划分 到 文档 的 各 个 部 分 ， 比 
如 题目 、 大 标题 、 摘 要 、 正 文 等 。 第 三 步 是 规范 文本 编码 ， 保 证 字符 用 相同 方式 表示 ， 比 如 将 
ASCII、ISO 8859-1、Windows-1250 编 码 格 式 的 文档 转换 为 Unicode 编 码 。 接 着 ,通过 断 词 将 文档 
分 割 为 特定 词 ， 然 后 移 除 那些 具有 较 低 预测 能 力 的 常用 词 ， 比 如 the 、a、I、We 等 。 


词性 (POS ) 标注 与 词 形 还 原 通 过 移 除 词尾 和 修饰 符 ， 将 每 个 标记 ( 即 单词 ) 转换 为 其 基本 
形式 ， 即 词根 ， 比 如 将 running 变 化 为 rn、 将 better 变 为 good 等 。 一 个 简化 的 方法 是 词 干 提 取 ， 它 
针对 的 是 单个 词 。 关 于 如 何 使 用 这 个 特定 的 词 , 没有 任何 上 下 文 ， 因此 它 不 能 区 分 带 有 不 同 含义 
的 词 ， 而 主要 依赖 于 词性 ， 比 如 axes 既 是 axe 的 复数 ， 也 是 axis 的 复数 。 


最 后 一 步 是 将 标记 转换 为 特征 空间 。 通常 , 特征 空间 是 一 个 词 袋 (BoW ) 表示 。 这 个 表示 中 ， 
出 现在 数据 集中 的 所 有 单词 组 都 会 被 创建 ， 即 词 袋 。 每 个 文档 表示 为 一 个 向 量 ， 记 录 某 个 特定 单 
词 在 文档 中 出 现 的 次 数 。 

请 看 下 面 两 个 句子 : 


口 Jacob likes table tennis. Emma likes table tennis too.( 雅 各 布 喜欢 乒乓 球 。 艾 玛 也 喜欢 乒乓 球 ) 
口 Jacob also likes basketball.( 雅 各 布 也 喜欢 篮球 。) 























































































































这 个 例子 中 ， 词 袋 为 { Jacob, likes, table, tennis, Emma, too, also, 
basketbal| }， 包 含 8 个 不 同 单词 。 现 在 ， 可 以 使 用 列表 索引 将 这 两 个 句子 表示 为 向 量 ， 表 示 
文档 中 的 一 个 单词 在 特定 索引 位 置 出 现 的 次 数 ， 如 下 : 


1 2 2 Te 0 50 0 
ODO[1l, 1, 0, 0, 0, 0, 1, 1] 


后 ， 将 这 样 的 向 量变 成 实例 ， 以 做 进一步 学 习 。 














地 
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另 一 种 基于 BoW 模 型 的 表示 方法 一 一 word2vec 也 非常 强大 。Word2vec 由 
Google 公 司 的 Tomas Mikolov 领 导 的 研究 小 组 在 2013 年 提出 。Word2vec 是 一 个 神 
二 经 网 络 ， 用 来 学 习 单 词 的 词 向 量 ( distributed representations )。 这 种 表示 法 的 一 
\ 委 人、 种 有 趣 特 性 是 ,单词 存在 于 答 中 ， 这样 一 些 单词 关系 ( 比如 类 比 ) 就 可 以 使 用 向 
量 数学 再 现 。 一 个 著名 的 例子 是 king-man+woman= queen。 
更 多 细节 与 实现 请 前 往 如 下 网 址 学 习 : 
https://code.google.com/archive/p/word2vec/ 


10.3.1 导入 数据 


本 章 不 会 学 习 如 何 从 网 站 抓 取 一 组 文档 或 者 从 数据 库 提取 它们 ， 此 处 假设 已 经 收集 好 了 这 
组 文档 ， 并 将 其 保存 在 . t xt 文件 中 。 接 下 来 ， 了 解 一 下 加 载 它 们 时 的 两 种 情况 : 第 一 种 情况 是 
每 个 文档 存储 在 各 自 的 , t xt 文件 中 ; 另 一 种 情况 是 所 有 文档 都 存在 一 个 文件 中 ， 每 行 就 是 一 个 
文档 。 

1. 从 目录 导入 


Mallet 提 供 了 cc., mallet.pipe.iterator，Filelterator 类 ， 支持 从 路 径 读 取 文 件 。 文 
件 迭 代 器 带 有 如 下 3 个 参数 .: 


口 包含 文本 文件 的 Fi 1 e[ ] 目录 列表 
口 文件 过 滤器 ， 用 于 指定 选择 目录 中 的 哪些 文件 
口 要 应 用 到 文件 名 的 模式 ， 用 于 产生 一 个 类 标签 
图 10-5 显 示 了 文件 夹 中 的 数据 文件 ， 这 些 文档 按 文 件 夹 组 织 成 5 个 主题 (tech 、 
entertainment 、politics、sport 、business )。 每 个 文件 夹 包 含 与 特定 主题 相关 的 文档 。 
































Name 

p tech 
entertainment 

>» MN politics 

* Ml sport 

Y 国 business 
男 003.txt 
男 004.txt 
男 008.txt 
男 009.txt 
男 014.txt 
男 015.txt 


图 10-5 ”数据 文件 
此 情形 下 ， 初 始 化 j terator ， 代 码 如 下 : 


Filelterator iterator = 
new Filelterator(new File[]{new File("path-to-my-dataset")} 
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new TxtFilterl()， 
Filelterator.LAST_DIRECTORY) 


第 一 个 参数 指定 根 文件 夹 的 路 径 ， 第 二 个 参数 将 迭代 器 限制 在 . txt 文件 上 ， 最 后 一 个 参数 
让 方法 将 路 径 中 的 最 后 目录 名 用 作 类 标签 。 


2. 从 文件 导入 数据 


加 载 文档 的 另外 一 种 方法 是 使 用 cc. mal let.,pipe.iterator.Csviterator.Csviterator 
(Reader，Pattern，int，int，int)， 它 假定 所 有 文档 位 于 一 个 文件 ， 每 行 返回 一 个 实例 ， 
通过 一 个 正则 表达 式 进 行 提 取 。 初 始 化 这 个 类 时 ， 需 要 提供 如 下 参数 。 


DReader : 这 个 对 象 指 定 如 何 从 文件 读 取 数 据 。 
口 Pattern: 这 是 一 个 正则 表达 式 ， 提 取 3 个 组 : 数据 、 目 标 标签 、 文 档 名 。 
Dint，int，int : 这 些 是 数据 、 目 标 、 名 称 组 的 索引 ， 它 们 出 现在 上 面 的 正则 表达 式 中 。 


假设 有 一 个 文本 文档 ， 它 有 指定 的 文档 名 、 分 类 、 内 容 ， 格 式 如 下 : 


AP881218 local-news A 16-year-old student at a private 
Baptist... 

AP880224 business The Bechtel Group lnc. offered in 1985 to... 

AP881017 local-news A gunman took a 74-year-old woman hostage.. 

AP900117 entertainment Cupid has a new message for |lovers 
this... 

AP880405 politics The Reagan administration is weighing w.. 


使 用 如 下 正则 表达 式 ， 将 文档 的 每 一 行 解析 成 3 个 组 : 
人 和 二 人 
有 3 个 组 出 现在 圆 括号 ( ) 中 ， 其 中 第 三 组 包含 数据 ， 第 二 组 包含 目标 类 别 ， 第 一 组 包含 文档 

































































ID。 和 迭 代 器 初始 化 如 下 : 
Csvlterator iterator = new Csvlterator | 
fileReader 
Pattern.compile(" ~(\\S*)[\\s, 1]*(\\S*) [ls, 1*(.*)$"), 
3 2 eh: 


上 面 代码 中 ， 正 则 表达 式 用 于 提取 3 个 组 ， 采 用 空格 分 隔 ， 它 们 的 顺序 为 3 、2 、1 。 
接 下 来 进入 数据 预 处 理 流 程 。 





10.3.2 ”对 文本 数据 做 预 处 理 


对 遍历 数据 的 迭代 咒 做 好 初始 化 后 ， 需 要 对 数据 做 一 系列 变换 ， 这 在 开头 部 分 已 经 提 到 过 。 
对 此 ，Mallet 提 供 了 相应 的 处 理 流程 ， 其 中 包含 各 种 步 又 ,在 cc. mal1et.pipe 包 中 可 以 找到 它 
们 。 下 面 给 出 了 一 些 例 子 。 
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口 Input2CharSequence : 从 各 种 文本 源 ( URI、File 、Reader ) 读 取 数据 ， 并 转换 为 
CharSequence。 

口 CharSequenceRemoveHTML : 从 CharSequence 移 走 HTML。 

口 MakeAmpersandXMLFriendly: 将 符号 序列 的 标记 中 的 & 转 换 为 &amp。 

口 TokenSequenceLowercase: 将 数据 域 符号 序列 中 每 个 标记 的 文本 转换 成 小 写 。 

口 TokenSequence2FeatureSequence: 将 每 个 实例 数据 域 中 的 符号 序列 转换 为 特征 序列 。 
口 TokenSequenceNGrams : 将 数据 域 中 的 符号 序列 转换 为 带 标记 的 ngrams 序 列 ， 即 两 个 或 
更 多 个 单词 组 合 。 














关于 处 理 步 骤 的 完整 列表 ， 可 以 在 下 面 Mallet 文 档 中 看 到 : 
http://mallet.cs.umass.edu/api/index.html?cc/mallet/pipe/iterator/package-tree.html 


接 下 来 , 创建 用 于 导入 数据 的 类 。 

首先 创建 一 个 管道 (pipeline )， 每 个 处 理 步 又 对 应 于 Mallet 中 的 一 个 管道 。 可 以 用 串 行 方式 
把 管道 连接 起 来 ， 形 成 Ar rayLi st <Pi pe> 对 象 列表 。 

ArrayList<pipe> pipeList = new ArrayList<Pipe>() 

先 从 一 个 文件 对 象 读 取 数据 ， 将 所 有 字符 转换 为 小 写 : 


pipeList.add(new Input2CharSequence("UVUTF-8")); 
pipeList.add( new CharSequenceLowercase() ); 


接 下 来 ,使 用 正则 表达 式 对 原始 字符 串 进行 标记 化 。 下 面 模式 包括 Unicode 字 母 、 数 字 以 及 
下 划 线 字符 : 


Pattern tokenpattern = 
Pattern.compile("[\\p{L}\\p{N}_]+") 

















pipeList.add(new CharSequence2TokenSequence(tokenpattern)); 

使 用 标准 的 英文 停止 词 表 , 移 走 停止 词 ， 即 那些 不 具 预 测 能 力 的 高 频 词 。 其 他 两 个 参数 分 别 
指定 移 走 停止 词 时 是 否 区 分 大 小 写 , 以 及 删除 单词 后 是 否 标记 。 将 这 两 个 参数 全 部 设置 为 fal se : 
pipeList,add(new TokenSequenceRemoveStopwords(false, false)); 

我 们 不 会 保存 实际 单词 ， 而 将 它们 变 成 整数 ， 表 示 单 词 在 词 袋 中 的 索引 。 

pipeList.add(new TokenSequence2FeatureSequence()); 

对 于 类 标签 做 同样 处 理 ， 即 不 用 标签 字符 串 而 使 用 一 个 整数 ， 指 示 标 签 在 词 袋 中 的 位 置 。 
pipeList.add(new Target2Label()); 

可 以 通过 调用 Print1nput AndTarget 打印 特征 与 标签 。 


pipelList.add(new PrintlnputAndTarget()); 
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最 后 ， 将 管道 列表 存储 到 Seri al Pi pes 类， 这 个 类 通过 一 系列 管道 转换 实例 。 
SerialPipes pipeline = new SerialPipes(pipeList), 


接 下 来 ， 看 看 如 何 将 其 应 用 到 文本 挖掘 应 用 














O 


10.4 为 BBC 新 闻 做 主题 模型 
如 前 所 述 ， 主 题 模型 的 目标 是 识别 文本 语料库 ( 对 应 于 文档 主题 ) 中 的 模式 。 这 个 例子 中 ， 
我 们 使 用 的 数据 集 来 自 BBC 新 闻 。 这 个 数据 集 是 机 器 学 习 人 研究 中 常用 的 基准 测试 数据 集 之 一 , 仅 
用 于 非 商 业 与 研究 目的 。 

我 们 的 目标 是 创建 一 个 分 类 器 ， 用 它 为 未 分 类 的 文档 指派 一 个 标题 。 


























10.4.1 BBC 数据 集 

为 了 研究 基于 支持 向 量 机 的 文档 聚 类 问题 ，Greene 与 Cunningham ( 2006 ) 采集 了 BBC 新 闻 数 据 
并 制 成 BBC 数据 集 。 这 个 数据 集 包 含 2225 个 文档 ,它们 全 部 来 自 BBC 新 闻 网 站 ,时 间 跨 度 为 2004~2005 
年 ， 可 划分 为 5 个 主题 : 商业 、 环 境 、 政 治 、 体 育 、 技 术 。 可 以 从 如 下 网 站 获得 这 个 数据 集 : 

http://mlg.ucd.ie/datasets/bbc.html 

从 Dataset: BBC 部 分 下 载 原 始 文本 文件 。 此 外 ， 你 可 能 已 经 注意 到 ， 这 个 网 站 还 包含 已 经 做 
过 预 处 理 的 数据 集 , 但 我 们 不 会 下 载 它 ， 因 为 我 们 想 自 己 动手 处 理 数据 集 。 下 载 后 的 ZIP 文 件 中 包 
含 5 个 文件 来， 每 个 文件 夹 对 应 一 个 主题 ， 实 际 文档 位 于 相应 的 主题 文件 夹 之 下 ， 如 图 10-6 所 示 。 








Insight Resources Home | me | Sohware。。 Publicatiors irsightHome 


BBC Datasets 


earming research 





Dataset: BBCSport 


A rnts, in 




















图 10-6 ”原始 文本 文件 
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下 面 创 建 主题 分 类 器 。 


10.4.2 ” 建 模 
首先 ， 导 入 数据 集 ， 并 对 文本 做 处 理 : 





mport cc.mallet.types.*, 

import cc.mallet.pipe.* 

import cc.mallet.pipe.iterator.*, 
mport cc.mallet.topics.*, 

import java. util.*,; 

import java. util.regex.*,; 
import java.io.*,; 














public class TopicModeling { 





public static void main(String[] args) throws Exception { 





String dataFol derPath = args[0]; 
String stopListFilepath = args[1]; 


然后 ,创建 一 个 默认 管道 ( 如 前 所 述 ): 


ArrayList<pipe> pipelist = new ArrayList<Pi pe>(); 
pipeList.add(new lnput2CharSequence("UTF-8") 

Pattern tokenpattern = Pattern. compile( [VVp{L} Np{N} | 年 * 
pipeList.add(new CharSequence2TokenSequence(tokenpattern)); 
p 
p 





ipeList,add(new TokenSequenceLowercase()); 
ipeList.add(new TokenSequenceRemoveStopwords(new 
File(stopListFilepath), "utf-8", false, false, false)); 
pipeList.add(new TokenSequence2FeatureSequence()); 
5$ 
Pp 











pipeList.add(new Target2Label()); 
ipes pipeline = new SerialPipes(pipelist); 











接着 ， 初 始 化 fol derlterator : 


Filelterator folderlterator = new Filelterator!( 
new File[] {new File(dataFol derpath)}, 

new TxtFilter(), 
Filelterator.LAST_DIRECTORY), 


新 建 实例 列表 ， 将 我 们 想 用 于 处 理 文本 的 管道 传递 给 它 : 


InstancelList instances = new lnstancelList(pipeline); 
最 后 ， 人 处 理 迭 代 器 给 出 的 每 个 实例 : 


instances.addThruPpipe(folderlterator); 














下 面 使 用 cc. mallet.topics.ParallelTopicModel.,ParallelTopicModel 类 (实现 了 
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一 个 简单 的 Latent Dirichlet Allocation 模 型 ) 创建 带 有 5 个 主题 的 模型 。LDA 是 主题 模型 的 通用 方 
法 , 它 使 用 狄 利克 雷 分 布 评估 选 定 主题 产生 特定 文档 的 可 能 性 。 本 章 不 会 涉及 相关 细节 , 感 兴 
的 读者 请 参考 D. Blei 等 人 发 表 的 原 论文 (2003 )。 请 注意 ，LDA 这 个 缩写 还 有 可 能 指 机 器 学 习 中 
另外 一 种 分 类 算法 一 一 线性 判别 分 析 ( Linear Discriminant Analysis )， 但 它们 只 是 缩写 一 样 ， 此 
外 再 无 共同 之 处 。 


对 Paral1elTopicModel 类 进行 实例 化 时 ， 有 alpha 与 beta 参 数 ， 基 本 含义 如 下 。 


口 高 alpha 值 表示 每 个 文档 可 能 混合 多 个 主题 ， 不 特 指 某 一 个 主题 ; 低 alpha 值 使 文档 较 少 受 
这 些 条 件 的 约束 ， 这 意味 着 文档 可 能 混合 儿 个 主题 ， 也 可 能 只 有 一 个 主题 。 

口 高 beta 值 表示 每 个 主题 可 能 混合 很 多 单词 ， 不 是 特定 某 个 单词 ; 低 beta 值 表示 主题 只 混合 
几 个 单词 。 


例子 中 ,我们 将 这 两 个 参数 设置 得 小 一 些 ( alpha_t=0.01，beta_w = 0.01 )。 因 为 我 们 假设 数 
据 集中 的 主题 混合 得 不 多 ， 并 且 每 个 主题 有 很 多 单词 : 
int numTopics = 5; 


ParallelTopicModel model = 
new ParallelTopicModel (numTopics, 0.01, 0.01) 


接 下 来 , 将 实例 添加 到 模型 。 由 于 我 们 使 用 的 是 并 行 实现 , 所 以 还 要 指定 并 行 执行 的 线程 数 ， 
代码 如 下 : 


model.addlnstances(instances); 
model.set NumThreads(4) 


按照 选 定 的 迭代 次 数 运 行 模型 。 每 次 迭代 都 是 为 了 更 好 地 评估 内 部 LDA 人 参数 。 测 试 时 ,我们 
可 以 指定 较 少 的 迭代 次 数 ， 比 如 50 次 ; 而 实际 应 用 中 ,通常 将 迭代 测试 设置 为 1000 或 2000 次 。 
最 后 ， 调 用 void esti mate() 方 法 ， 实 际 创建 一 个 LDA 模 型 . 



























































model.set Numl terations(1000) 
model .estimatel(); 


模型 输出 结果 如 下 : 


0,06654 game england year time win world 6 

0,0863 year 1 company market growth economy firm 
0,05981 people technology mobile mr games users music 
0,05744 film year music show awards award won 

0,11395 mr government people labour election party blair 








和 co 人 一 一 


[beta: 0,11328] 
<1000> LL/token: -8,63377 


Total time: 45 seconds 


LL/t oken 指 模型 的 对 数 相 似 度 (log-likelihood ) 除 以 标记 总 数 , 表示 数据 与 给 定 模型 的 相似 
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程度 ， 该 值 越 大 ， 表 示 模 型 品质 越 高 。 


输出 也 显示 了 描述 每 个 主题 的 热门 词汇 ， 这 些 词 汇 与 初始 主题 有 很 好 的 对 应 。 





口 Topic 0: game, England, year, time, win, world, 6 一 Sport 

口 Topic 1: year 1, company, market growth, economy, firm 一 finance 
口 Topic 2: people, technology, mobile, mr, games, users, music 一 tech 
OD Topic 3: film, year music, show, awards, award, won 一 entertainment 


口 Topic 4: mr government, people, labor, election, party, blair 一 politics 


其 中 ， 有 些 词汇 意义 不 大 ， 比 如 mr、1、6， 我 们 可 以 将 其 放 和 人 停止 词 列表 。 此 外 ， 有 些 词 出 
现 了 两 次 ， 比 如 award 与 awards。 之 所 以 会 出 现 这 种 情况 是 因为 ， 我 们 没有 使 用 任何 词 干 分 析 器 
与 词 形 还 原 管 道 。 


接 下 来 ， 对 模型 的 性 能 进行 评估 。 


























k= 


10.4.3 ”评估 模型 


统计 上 的 主题 模型 拥有 非 监 督 特征 ,这 使 选择 模型 变 得 困难 。 对 于 某 些 应 用 ,可 能 有 一 些 非 
本 质 的 任务 要 处 理 ， 比 如 信息 检索 或 文档 分 类 , 我 们 可 以 为 其 评估 性 能 。 但 我 们 通常 希望 评估 的 
是 模型 概括 主题 的 能 力 ， 而 不 是 这 些 任务 。 


Wallach 等 人 (2009 ) 提出 了 一 种 衡量 模型 质量 的 方法 ， 这 种 方法 计算 的 是 模型 下 抽取 文档 
的 对 数 概率 ， 将 未 见 过 的 文档 的 可 能 性 用 来 比较 模型 一 一 可 能 性 越 高 ， 表 示 模 型 越 好 。 


首先 , 将 文档 分 成 训练 集 与 测试 集 ( 即 留存 文档 ) 把 90% 的 文档 用 来 训练 ，10% 的 文档 用 来 
测试 。 
1 划分 数据 集 


InstanceList[] instance9plit= instances.split(new Randoms()， 
new double[] {0.9, 0.1, 0.0}); 


接着 ， 使 用 90% 的 文档 重建 模型 ; 


11 使 用 前 90% 做 训练 

model .addlnstances(instanceSplit{[0]); 
model .set NumThreads(4); 

model .set Numl terations(50); 

model .estimatel(); 


然后 ， 初 始 化 评价 器 Mar gi nalProbEsti mator ， 它 实现 了 留存 文档 的 Wallach 对 数 概率 : 


11 获取 评价 器 
Marginal ProbEstimator estimator = model.getProbEstimator(); 
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Annalyn Ng 在 她 的 博客 中 ， 对 LDA 做 了 直观 说 明 : 
https://annalyzin.wordpress.com/2015/06/21/laymans-explanation-of-topic-modeling- 
a withlda-2/ 
\3 为 了 深入 了 解 LDA 算 法 以 及 组 件 与 工作 原理 ， 可 以 阅读 David Blei 等 人 撰写 
的 LDA 论 文 : http://jmlr.csail.mit.edu/papers/V3/blei03a.html。 或 者 阅读 布朗 大 学 
D. Santhanam 所 做 的 总 结 演示 : http:/www.cs.brown.edu/courses/csci2950-p/spring 
2010/lectures/2010-03-03_santhanam.pdf。 


这 个 类 实现 了 许多 评价 右 , 需要 非常 深厚 的 理论 知识 才能 理解 LDA 方 法 的 工作 原理 。 我 们 从 
中 选择 从 左 到 右 ( left-to-right ) 的 评价 器 ， 它 的 适用 范围 很 广 ， 比 如 文本 挖 气 、 语 音 识别 等 。 从 
左 到 右 的 评价 器 实现 为 ouble eval uat eLeftToRi ght 方 法， 接收 如 下 4 个 参数 。 

















口 lnstances heldoutDocuments : 测试 实例 。 

Dint numparticles: 这 个 算法 参数 指 从 左 到 右 的 标记 数量 ， 默 认 值 是 10 。 

口 bpool ean useResampling: 表示 在 从 左 到 右 的 评价 中 是 否 对 主题 重 采 样 。 重 采样 会 提 
高 准确 度 ， 但 会 导致 文档 长 度 呈 指数 增长 。 

口 PrintStreamdocProbabilityStream: 这 是 个 文件 或 st dout ， 我们 将 为 每 个 文档 推 
算 的 对 数 概率 写 人 其 中 。 


运行 评价 器 ， 代 码 如 下 : 


double loglike = estimator.evaluateLeftToRi ght( 
instanceSplit[1], 10, false, null|);); 
System.out.println("Total log likelihood: "+loglike),; 


我 们 的 例子 中 ,评价 器 输出 如 下 对 数 似 然 值 。 与 使 用 其 他 参数 、 流 水 线 或 数据 创建 的 模型 进 
行 比较 时 ， 这 个 值 才 有 意义 。 对 数 似 然 值 越 高 ， 模 型 越 好 : 

Total time: 3 seconds 

Topic Evaluator: 5 topics, 3 topic bits, 111 topic mask 


Total log likelihood: -360849,4240795393 
Total logy likelihood 


接 下 来 ， 看 看 如 何 使 用 这 个 模型 。 



























































10.4.4 重用 模型 


我 们 通常 不 会 在 运行 中 创建 模型 , 更 常见 的 做 法 是 , 训练 一 次 模型 ,然后 重复 用 它 对 新 数据 
做 分 类 。 

请 注意 , 如 果 你 打算 对 新 文档 做 分 类 , 它们 也 需要 像 其 他 文档 一 样 通过 一 样 的 流水 线 一 一 对 
于 训练 与 分 类 , 管道 需要 是 一 样 的 。 训 练 期 间 ， 管道 数 据 字 母 表 随 每 个 训练 实例 更 新 。 如 果 你 使 
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用 相同 步骤 创建 了 一 个 新 管道 , 那么 不 会 得 到 相同 的 流水 线 , 因为 它 的 数据 字母 表 是 空 的 。 因 此 ， 
为 了 将 模型 应 用 到 新 数据 ， 要 随 模型 一 起 保存 /加 载 管道 ， 并 且 使 用 这 个 管道 添加 新 实例 。 


1. 保存 模型 


Mallet 提 供 了 一 个 标准 方法 , 它 基于 序列 化 保存 与 恢复 对 象 。 新 建 一 个 0bj ect Out put Streanm 
类 的 实例 ， 然 后 将 实例 对 象 写 和 文件， 代码 如 下 : 


String model Path = "myTopicModel 























11 保存 模型 
ObjectOutputStream o00s = new ObjectOutputStream 

new FileOQutputStream (new File(modelPath+".model"))) 
005S. Write0objectl(model)， 

00s.closel(); 


11 保存 流水 线 
005 = new ObjectOutputStream 

new FileOutputStream (new File(modelPath+".pipeline"))) 
00s. writeObject(pipeline); 

0o0s.closel(); 


2. 恢复 模型 
相对 于 通过 序列 化 保存 模型 ， 使 用 0bj ect1nput Stream 类 恢复 模型 是 一 个 相反 操作 : 


String model Path = "myTopicModel"; 




















1 1 加载 模 型 
ObjectlnputStream ois = new ObjectlnputStream 
new FilelnputStream (new File(model Path+".model"))); 
Parallel TopicModel model = (ParallelTopicModel) ois.readObject(); 
oils.closel(); 


1 1 加载 流 水 线 
ols = new ObjectlnputStream 

new FilelnputStream (new File(model Path+".pipeline"))) 
SerialPipes pipeline = (SerialPipes) ois.readObject(); 
ojs.closel(); 


上 面 讨论 了 如 何 创 建 一 个 LDA 模 型 ， 并 根据 各 主题 自动 对 文档 进行 分 类 。 接 下 来 的 例子 中 ， 
我 们 将 学 习 另 外 一 个 文本 挖掘 问题 一 一 文本 分 类 。 





10.5 垃圾 邮件 检测 


垃圾 信息 主要 指 那些 未 经 用 户 同意 发 送 来 的 信息 , 这 些 信 息 包含 广告 内 容 、 受 病毒 感染 的 附 
件 以 及 跳 转 到 钓鱼 网 站 或 恶意 网 站 的 链接 等 。 最 常见 的 垃圾 信息 是 垃圾 邮件 ,， 除 此 之 外 , 垃圾 信 
息 还 出 现在 其 他 各 种 地 方 ， 比 如 网 站 评论 区 、 即 时 信息 、 网 络 论坛 、 博 客 、 在 线 广告 等 。 
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接 下 来 ,我 们 将 讨论 如 何 创 建 朴素 贝 叶 斯 垃圾 邮件 过 滤器 ,使 用 词 袋 描述 识别 垃圾 邮件 。 朴 
素 贝 叶 斯 垃圾 邮件 过 滤器 是 基本 技术 之 一 ， 它 在 第 一 批 商 业 垃 圾 邮件 过 滤器 中 被 实现 ， 比 如 
Mozilla Thunderbird 邮 件 客户 端 就 使 用 了 这 样 的 过 滤器 实现 。 虽 然 我 们 列举 的 是 过 滤 垃 圾 邮件 的 
例子 ,但 这 些 方 法 也 可 以 用 于 过 滤 其 他 类 型 的 文本 垃圾 。 




















10.5.1 垃圾 邮件 数据 集 


Androutsopoulos 等 人 (2000 ) 收集 并 制作 了 第 一 批 垃圾 邮件 数据 集 之 一 ， 他 们 使 用 它 测试 垃 
圾 邮件 过 滤 算 法 。 这 些 人 研究 如 何 使 用 朴素 贝 叶 斯 分 类 器 检测 垃圾 邮件 , 并 且 研 究 使 用 其 他 管道 
( 比如 停 用 词 表 、 词 干 分 析 器 、 词 形 还 原 ) 是 否 有 利于 提高 过 滤器 的 性 能 。Andrew Ng 在 
OpenClassroom 的 机 顺 学 习 课 党 上 对 数据 集 进 行 重新 组 织 ， 你 可 以 从 如 下 页 面 下 载 : 


http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exe 









































rcises/ex6/ex6.html。 





选择 并 下 载 第 二 个 一 ex6DataEmai1s.zip， 如 图 10-7 所 示 。 


OpenClassroom 


二 下 Machine Learning 





3 ! ) Andrew Ng 
一 
RESOURCES 
Exercise 6: Naive Bayes Sylabus 
In this exercise, you will use Naive Bayes to classify email messages into spam and nonspam groups. Your dataset is a iN 


preprocessed subset of the Ling-Spam Dataset, provided by lon Androutsopoulos. It is based on 960 real email messages 
from a linguistics mailing list. 


There are two ways to complete this exercise. The first option is to use the Matlab/Octave-formatted features we have 
generated for you. This requires using Matlab/Octave to read prepared data and then writing an implementation of Naive 
Bayes. To choose this option, download the data pack ex6DataPrepared.zip. 


The second option is to generate the features yourself from the emails and then implement Naive Bayes on top of those 
features. You may want this option if you want more practice with features and a more open-ended exercise. To choose 
this option, download the data pack ex6DataEmails.zip. 

















图 10-7 ”选择 并 下 载 e&x6DataEmails.zip 文 件 
ZIP 包 含 如 下 4 个 文件 夹 ( Ng，2015 )。 


口 nonspam-train 与 spam- train 文 件 夹 包含 经 过 预 处 理 的 电子 邮件 ， 它 们 用 于 训练 。 

个 文件 夹 包含 350 封 电子 邮件 。 

Dnonspam-test 与 Spam-test 文件 夹 是 测试 集 ， 包 含 130 封 垃圾 邮件 与 130 封 非 垃 圾 邮 
件 。 你 将 针对 这 些 文档 进行 预测 。 请 注意 ， 尽 管 有 单独 的 文件 夹 告诉 你 正确 的 标签 ， 但 
对 这 些 测试 文档 做 预测 时 请 不 要 使 用 它们 。 做 完 预 测 后 ， 你 可 以 使 用 正确 的 标签 检查 分 

是 否 正确 。 





























并 
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为 了 利用 Mal 1 et 的 文件 夹 迭 代 器 ， 需 要 重新 组 织 文 件 夹 结 构 ， 如 下 所 示 。 创 建 两 个 文件 
夹 一 一 train 与 test , 将 s pam/ nospam 文 件 夹 放 入 相应 文件 来。 文件 夹 最 初 结构 如 图 10-8 所 示 。 








Name ~v 
» 国 spam-train 
* 国 spam-test 
README 
>» MN nonspam-train 
bp | nonspam-test 








图 10-8 ”文件 夹 最 初 结构 
经 过 调整 ， 文 件 夹 的 结构 如 图 10-9 所 示 。 





Name v 
7 BB train 

>» MM spam 

* nonspam 
v test 


> | 
> 





| Spam 
| nonspam 


README 











图 10-9 








调整 后 的 文 从 


F 夹 结构 


接 下 来 ， 将 e-mail 信息 转换 为 特征 向 量 。 


10.5.2 ”特征 生成 























根据 前 面 的 讲解 ， 创 建 一 个 默认 流水 线 (pipeline )。 
ArrayList<pipe> pipelist = new ArrayList<Pi pe>(); 
pipeList.add(new Input2CharSequence("UTF-8")); 
Pattern tokenpattern = Pattern.compile("[\\p{L}\\p{N}_ ]+"),; 
pipeList.add(new CharSequence2TokenSequence(tokenPpattern)); 
pipeList.add(new TokenSequenceLowercase()); 
pipelList.add(new TokenSequenceRemoveStopwords(new 
File(stopListFilepath), "utf-8", false, false, false)); 
pipeList.add(new TokenSequence2FeatureSequence()); 
pipeList.add(new FeatureSequence2FeatureVector()); 
pipeList.add(new Target2Label()); 
SerialPipes pipeline = new SerialPipes(pipelist) 


请 注意 ， 我 们 额外 添加 了 一 个 Feat ureSequence2FeatureVector 管道 ,将 特征 序列 转换 
为 特征 向 量 。 特 征 向 量 中 有 数据 时 ,可 以 使 用 前 面 学 习 的 任何 一 种 分 类 算法 。 接 下 来 继续 我 们 的 
例子 ， 演 示 如 何在 Mallet 中 创建 一 个 分 类 模型 。 


接着 ， 初 始 化 一 个 文件 夹 迭 代 器 ， 加 载 tr ain 文 件 夹 中 的 样 例 。t r ain 文 件 夹 包含 spam 与 
nonsp am 两 个 子 文件 炎 ， 里 面包 含 电 子 邮 件 样 例 ， 文 件 夹 用 作 样 例 标签 : 
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Filelterator folderlterator = new Filelterator 
new File[] {new File(dataFol derPath)}, 
new TxtFilter(), 
Filelterator.LAST_DIRECTORY) 


使 用 流水 线 新 建 实例 列表 ， 用 于 处 理 文本 : 

InstanceList instances = new lnstanceList(pipeline); 
最 后 ， 处 理 迭 代 器 提供 的 每 一 个 实例 : 
instances.addThruPpipe(folderlterator),; 


现在 已 经 加 载 好 数据 ,并 且 转 换 为 特征 向 量 。 接 下 来 ,使 用 训练 集训 练 模型 ,并 在 测试 集 t e st 
上 做 预测 分 类 一 一 spam/ nonspam。 











bl 




















10.5.3 ”训练 与 测试 模型 


Mallet 实 现 了 一 组 分 类 器 ， 它 们 位 于 cc. mallet, classify 包 ,包括 决策 树 、 朴 素 贝 叶 斯 、 
AdaBoost、bagging 、boosting 等 。 这 里 只 讲 一 个 基本 的 分 类 器 一 一 朴素 贝 叶 斯 分 类 器 。 先 通过 
ClassifierTrainer 类 初始 化 分 类 器 , 再 调用 它 的 train(lnstances) 方 法 ， 即 会 返回 分 类 器 。 


ClassifierTrainer classifierTrainer = new ANaiveBayesTrainer()， 
Classifier classifier = classifierTrainer.train(instances),; 


接 下 来 ， 了 解 一 下 这 个 分 类 器 是 如 何 工作 的 ， 以 及 如 何在 单独 的 数据 集 上 评价 其 性 能 。 
模型 性 能 
在 单独 的 数据 集 上 评价 分 类 器 之 前 ， 先 导入 t e st 文件 夹 中 的 电子 邮件 : 


InstancelList testlnstances = new 
InstanceList(classifier.getlnstancePpipel()); 
folderlterator = new Filelterator 
new File[] {new File(testFol derPpath)}, 
new TxtFilter(), 
Filelterator.LAST_DIRECTORY) 


过 训练 期 间 初始 化 的 流水 线 传 递 数据 : 
testlnstances.addThruPpipe(folderlterator),; 
为 了 评价 分 类 器 性 能 ， 我 们 将 用 到 cc., mal1et.,classify.Trial 类 ,并且 使 用 分 类 器 与 一 
系列 测试 样 例 对 其 进行 初始 化 : 
Trial trial = new Trial(classifier, testlnstances); 
初始 化 后 立即 执行 评估 。 最 后 ， 可 以 只 打印 自己 关心 的 指标 。 我 们 的 例子 中 , 我 们 想 了 解 垃 
圾 邮件 信息 分 类 的 准确 率 与 召回 率 ， 或 者 F 值 一 一 返回 两 个 值 的 调和 平均 数 ， 代 码 如 下 : 
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System.out.printlnl( 

"Fl for class 'spam: " + trial.getF1l("spam")) 
System.out.printlnl( 

"Precision:"” + trial.getPprecision(1)); 
System.out.printlnl( 

"Recall:"” + trial.getRecall(1)) 


评估 结果 输出 如 下 : 


Fl for class 'spam': 0.9731800766283524 

precision: 0.9694656488549618 

Recall: 0,9769230769230769 

从 上 述 结 果 可 以 看 到 ,模型 发 现 垃 圾 信息 的 准确 率 是 97.69% ( recall ); 标记 为 垃圾 邮件 的 电 
子 邮 件 中 ,准确 率 是 96.94%。 换言之 , 每 100 封 垃圾 邮件 中 ， 大 约 错 判 2 个 ; 每 100 封 合法 邮件 中 ， 
有 3 封 被 错 判 为 垃圾 邮件 。 虽 然 结果 并 不 十 分 完美 ， 但 却 是 一 个 很 好 的 开始 ! 












































10.6 小结 


本 章 讨 论 了 文本 挖掘 与 基于 属性 的 传统 学 习 方 法 的 不 同 之 处 ， 需 要 大 量 预 处 理 步骤 ， 将 书 
面 的 自然 语言 转换 为 特征 向 量 。 而 且 讨 论 了 如 何 使 用 Mallet 一 一 一 个 基于 Java 的 自然 语言 处 理 
库 一 一 解决 两 个 实际 问题 。 首 先 , 使 用 LDA 模 型 为 新 闻 语 料 库 中 的 主题 创建 模型 ， 通 过 它 可 以 为 
新 文档 指派 一 个 主题 。 此 外 ， 我 们 还 讨论 了 如 何 使 用 词 袋 表 示 创 建 一 个 朴素 贝 叶 斯 垃圾 邮件 过 


本 章 最 后 部 分 对 如 何 应 用 各 种 类 库 解决 机 器 学 习 任务 做 了 技术 演示 。 此 处 无 法 讲解 更 多 有 趣 
的 应 用 ,也 不 能 在 许多 方面 给 出 更 多 细节 。 关 于 如 何 继续 学 习 以 及 深入 了 解 相关 主题 ， 下 一 章 给 
出 了 更 多 建议 ， 供 各 位 参考 。 

































































机 器 学 习 进 阶 






































前 面 讲解 了 Java 机 器 学 习 库 以 及 如 何 使 用 它们 解决 实际 问题 ， 本 章 是 整个 学 习 旅 程 的 最 后 
段 。 但 无 论 如 何 , 这 不 应 该 是 你 学 习 的 终点 。 对 于 如 何在 真实 世界 中 部 署 模型 、 会 遇 到 什么 困难 ， 
以 及 去 哪里 深化 知识 ， 本章 将 给 你 提供 一 些 切 实 可 行 的 建议 。 此 外 , 本 章 还 给 出 了 一 些 参考 站 点 
与 页 面 ， 从 中 你 可 以 找到 更 多 资源 、 资 料 、 会 议 信 息 ， 以 及 更 多 与 机 器 学 习 相 关 的 技术 。 

本 章 内 容 涵盖 如 下 主题 : 
口 机 需 学 习 在 现实 生活 中 的 重要 方面 
口 标准 与 标记 语言 
口 云端 机 厦 学 习 
口 Web 资 源 与 竞赛 














11.1 现实 生活 中 的 机 器 学 习 


关于 如 何在 实际 生产 环境 中 部 署 与 维护 模型 ， 论 文 、 学 术 报 告 、 讲 座 通常 不 会 担 及 。 对 于 这 
些 问 题 ， 本 节 将 讲述 需要 考虑 哪些 方面 。 


11.1.1 噪声 数据 


事实 上 ， 数 据 通常 包含 一 些 错误 与 缺 哆 ， 它 们 由 各 种 原因 引起 ， 比 如 测量 误差 、 人 为 错误 ， 
以 及 对 训练 样本 分 类 时 产生 的 误 判 等 。 我 们 将 数据 中 的 这 些 错误 与 缺陷 称 为 噪声 。 噪 声 也 有 可 能 
产生 于 对 缺失 值 进行 处 理 的 过 程 ， 比 如 使 用 一 组 加 权 实 例 ( 与 缺失 值 的 概率 分 布 相对 应 ) 蔡 换 带 
有 未 知 属性 值 的 实例 。 学 习 数 据 包 含 的 噪声 数据 最 典型 的 影响 是 ,降低 模型 对 新 数据 的 预测 准确 
度 ， 并 且 生 成 的 复杂 模型 也 很 难 被 用 户 理解 与 解释 。 






































11.1.2 ”类 不 平衡 
我 们 已 经 在 第 7 章 遇 到 过 类 不 平衡 问题 ， 主 要 讲解 的 内 容 是 检测 欺诈 性 保险 索赔 。 当 时 面临 
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的 困难 是 , 数据 集中 有 超过 90% 的 数据 描述 的 是 正常 行为 活动 ， 而 欺诈 实例 仅 占 数据 集 的 很 小 一 
部 分 。 这 种 情况 下， 如果 模 型 的 预测 结果 总 是 正常 ， 那么 90% 的 情况 下 都 是 正确 的 。 这 个 问题 在 
实际 情况 中 极其 常见 ， 并 且 可 以 在 各 种 应 用 中 观察 到 ， 比 如 欺诈 检测 、 异 常 检 测 、 医 疗 诊断 、 石 
油 泄漏 检测 、 面 部 识别 等 。 


现在 , 我 们 已 经 知道 了 分 类 不 平衡 问题 是 什么 以 及 成 因 , 接 下 来 看 看 应 该 如 何 解 决 。 第 一 个 
解决 方法 是 把 精力 放 在 测度 而 不 是 分 类 精确 度 上 ， 比 如 召回 率 、 准 确 率 、F 值 。 这 些 测 度 主要 关 
注 模型 对 少数 类 的 预测 准确 度 ( 召回 率 ) 以 及 误 报 比例 ( 准确 率 )。 另 一 个 方法 基于 重 采 样 ， 其 
主要 思想 是 减少 重复 出 现 的 实例 数量 ， 采 用 的 方式 是 让 新 集合 包含 的 类 保持 平衡 比例 。 



























































11.1.3 ”特征 选择 困难 


可 以 说 , 特征 选择 是 建 模 中 最 困难 的 部 分 , 这 需要 建 模 者 拥有 相关 的 领域 知识 以 及 对 问题 的 
深刻 认识 。 然 而 ， 良 好 的 特征 具有 如 下 属性 。 


口 可 复 用 性 : 良好 特征 应 该 可 以 在 不 同 模型 、 应 用 程序 与 小 组 中 重用 。 

口 可 变换 性 : 我 们 应 该 能 够 使 用 一 个 操作 (比如 | og( ) 、max() ) 对 特征 进行 变换 ， 或 者 通 
过 自 定义 计算 把 多 个 特征 组 合 在 一 起 。 

口 可 靠 性 : 特征 应 该 很 容易 监测 ， 并 且 有 合适 的 单元 测试 能 够 最 大 限度 减少 bug 和 问题 。 

口 可 解释 性 : 为 了 做 前 面 这 些 行为 ,需要 能 够 理解 特征 的 含义 以 及 解释 它们 的 值 。 


采集 的 特征 越 好 ， 结 果 就 会 越 准确 。 



































11.1.4 ”模型 链 


一 些 模型 可 能 产生 一 个 输出 ,这 个 输出 在 男 一 个 模型 中 被 用 作 特征 。 而且， 可 以 使 用 多 个 模 
型 一 一 集成 方法 , 将 任 一 模型 转换 为 特征 。 这 是 一 种 非常 好 的 方法 , 它 能 让 我 们 得 到 更 好 的 结 
但 同时 也 可 能 带 来 一 些 问 题 。 你 必须 小 心 ,确保 你 的 模型 输出 可 随时 接受 依赖 。 并且 ,要 尽量 避 
免 反 馈 回路 ， 因 为 它们 可 能 在 流水 线 中 产生 依赖 与 瓶颈 。 























11.1.5 评价 的 重要 性 

男 一 个 重要 方面 是 模型 的 评价 。 除 非 你 想 把 模型 应 用 于 新 数据 ,衡量 业务 目标 , 否则 不 需要 
做 预测 分 析 。 评 价 技术 ( 比如 交叉 验证 与 分 离 的 训练 /测试 集 ) 可 以 简单 地 划分 测试 数据 ， 这 只 
能 让 你 估计 模型 如 何 执行 。 生 活 往往 不 会 给 你 一 个 包含 所 有 已 定义 情况 的 训练 数据 集 , 因此 在 真 
实数 据 集中 定义 这 两 个 集合 时 ， 需 要 认真 思考 。 


一 天 结束 时 ， 我 们 想 提 高 业务 目标 ， 比 如 提高 广告 转化 率 、 增 加 顾客 对 推荐 商品 的 点 击 等 。 
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为 了 衡量 这 种 改进 ， 执 行 A/B 测 试 ， 针 对 拥有 相同 统计 意义 的 族群 ， 测 量 各 种 指标 的 不 同 ， 每 种 
指标 对 应 不 同 算法 。 有 关 产 品 的 决策 总 是 数据 驱动 的 。 


A/B 测 试 方法 用 于 对 设计 的 两 个 版 本 做 随机 化 访问 实验 :A 对 应 于 原始 版 本 ， 
轴 控制 实验 ; B 对 应 于 另 一 个 版 本 。 这 个 方法 可 以 判断 新 版 本 的 实际 效果 能 否 超过 
名 人 、 原版 本 。A/B 测 试 应 用 广泛 ， 范 围 涉及 网 站 改版 、 销 售 邮件 、 广 告 搜索 等 。 
Udacity 有 一 个 免费 课程 ,讲解 设计 与 A/B 测 试 分 析 内 容 , 可 以 在 如 下 地 址 观 
看 : https://www.udacity.com/course/abtesting--ud257。 


11.1.6 ”从 模型 到 产品 


从 在 实验 室 中 创建 一 个 准确 模型 , 到 将 其 变 为 一 个 产品 , 整个 过 程 需要 紧密 结合 数据 科学 与 
工程 技术 ， 如 下 3 个 步骤 与 图 11-1 所 示 。 

(1) 数据 研究 与 构建 假设 表示 对 问题 建 模 ， 并 且 对 模型 做 初步 评价 。 

(2) 构建 解决 方案 与 实现 表示 通过 编写 更 高 效 、 更 稳定 、 更 具 扩 展 性 的 代码 ， 让 模型 进入 产 
品 化 流程 。 
































(3) 在 线 评价 是 最 后 一 步 ， 在 业务 目标 下 ， 使 用 A/B 测 试 与 实际 数据 对 模型 进行 评价 。 
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图 11-1 从 模型 到 产品 


11.1.7 ”模型 维护 

另 一 个 需要 我 们 处 理 的 问题 是 维护 模型 。 模 型 是 一 成 不 变 的 吗 ? 我 们 是 对 一 个 动态 现象 建 模 
吗 ? 它 需 要 模型 随 着 时 间 的 推移 调整 预测 吗 ? 

模型 通常 在 脱 机 批量 训练 中 创建 ， 然 后 对 实时 数据 做 预测 ， 如 图 11-2 所 示 。 如 果 能 收 到 对 模 
型 预测 的 反馈 ， 比 如 股票 是 否 如 模型 预测 的 那样 上 涨 , 某 个 候选 人 是 否 如 预测 的 那样 参 选 等 ， 这 
些 反 馈 应 该 用 来 进一步 改善 初始 模型 。 
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批量 训练 实时 预测 
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预测 
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图 11-2 ”创建 模型 与 预测 数据 


对 于 改善 初始 模型 ， 反馈 的 确 很 有 用 , 但 要 注意 你 采样 的 数据 。 比 如 ， 如 果 有 一 个 模型 ， 用 
于 预测 谁 会 响应 活动 。 最初 你 会 使 用 一 组 随机 联系 的 客户 , 他 们 带 有 特定 响应 或 不 响应 分 布 和 特 
征 属性 。 模 型 只 会 把 关注 点 放 在 客户 的 一 个 子 集 上 , 他们 很 可 能 做 出 响应 ,并且 你 的 反馈 会 返回 
一 个 做 回应 的 客户 子 集 。 通 过 包含 这 样 的 数据 ,模型 会 在 特定 子 组 上 变 得 更 准确 , 但 在 其 他 组 上 
可 能 完全 不 对 。 我 们 将 这 个 问题 称 为 探索 与 利用 (exploration versus exploitation )。 可 以 在 Ostugi 
等 人 (2005 ) 与 Bondu 等 人 (2010 ) 写 的 论文 中 找到 这 个 问题 的 一 些 处 理 方法 。 





























11.2 标准 与 标记 语言 


随 着 预测 模型 的 应 用 越 来 越 普遍 ,为 了 解决 模型 分 享 与 建 模 过 程 规 范 化 问题 , 需要 有 标准 的 
模型 开发 流程 与 用 于 支持 模型 共享 的 交换 文件 格式 。 这 一 部 分 将 介绍 两 个 事实 上 的 标准 , 一 个 涵 
盖 数 据 科 学 过 程 ， 另 一 个 指定 一 个 交换 格式 ， 用 于 在 不 同 应 用 中 共享 模型 。 




















11.2.1 CRISP-DM 


跨行 业 数 据 挖掘 标准 流程 (CRISP-DM ) 描述 的 是 一 个 数据 挖 据 流程 , 通常 被 工业 领域 的 数 
据 科 学 家 采用 。CRISP-DM 将 数据 挖掘 流程 分 为 如 下 6 个 阶段 : 


口 商业 理解 
口 数据 理解 
口 数据 准备 
口 建 模 
口 评估 
口 部 署 


图 11-3 中 ， 篆 头 表示 流程 方向 ， 它 可 以 前 后 移动 ， 经 过 各 个 阶段 。 并 且 ， 流 程 并 不 是 在 模型 | 
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部 署 之 后 就 结束 了 。 外 部 箭头 表现 了 数据 科学 的 周期 性 特征 。 流 程 中 学 到 的 知识 可 能 引发 新 的 问 
题 ， 继 续 重复 这 个 过 程 ， 对 以 前 的 结果 进行 改善 。 























图 11-3 ”数据 挖掘 流程 





11.2.2 SEMMA 方 法 


男 一 个 方法 是 “采样 、 探 索 、 调 整 、 建 模 、 评 价 ”( SEMMA )。SEMMA 描 述 了 数据 科学 中 
的 主要 建 模 任务 ， 它 不 考虑 业务 方面 ， 比 如 数据 理解 与 部 署 。SEMMA 由 SAS Institute 研 发 ， 它 是 
统计 软件 的 最 大 供应 商 之 一 ， 其 目标 是 帮助 他 们 的 软件 用 户 做 数据 挖掘 的 核心 任务 。 














11.2.3 ”预测 模型 标记 语言 


预测 模型 标记 语言 (PMML ) 是 一 种 基于 XML 的 交换 格式 ， 它 允许 用 户 在 不 同 应 用 与 系统 
中 轻松 共享 机 器 学 习 模 型 。PMML 文 持 的 模型 有 逻辑 回归 、 神 经 网 络 、 决 策 树 、 朴 素 贝 叶 斯 、 回 
归 模 型 等 。 典 型 的 PMML 文件 由 如 下 几 部 分 组 成 。 
口 包含 通用 信息 的 头 部 
口 数据 字典 : 描述 数据 类 型 
口 数据 转换 : 指定 标准 化 、 离 散 化 、 聚 合 或 自 定 义 功能 的 步骤 




















口 模型 定义 : 包含 参数 

口 挖 据 模式 : 列 出 模型 使 用 的 属性 

口 目标 : 允许 对 预测 结果 做 后 期 处 理 

口 输出 : 列 出 要 输出 的 字段 及 其 他 后 处 理 步 又 


PMML 文 件 可 以 导入 任何 支持 PMML 语 言 的 应 用 ， 比 如 Zementis 公 司 的 ADAPA (Adaptive 
Decision and Predictive Analytics )、UPPI ( Universal PMML Plug-in ) 计 分 引擎 、Weka ( 内 建 支 
持 回归 、 广 义 回归 、 神 经 网 络 、 树 模型 、 规 则 集 模型 、 支 持 向 量 机 模型 )、Spark ( 可 导出 k 均 值 
聚 类 、 线 性 回归 、 岭 回归 、LASSO 模 型 、 二 项 逻辑 回归 、SVM )、Cascading ( 将 PMML 文 件 转 换 
为 一 个 Apache Hadoop 上 的 应 用 )。 


下 一 代 PMML 采 用 的 是 一 种 新 格式 ， 称 为 “面向 分 析 的 可 移植 格式 ”( PFA )。 它 提供 了 一 个 
通用 接口 ， 用 于 部 署 跨 环境 的 完整 工作 流 。 



































11.3 云端 机 器 学 习 


面 对 日 益 增 长 的 数据 ， 建 立 一 个 完整 的 机 融 学 习 栈 很 具 挑 战 性 。 最 近 ， 软 件 即 服 务 (SaaS ) 
与 基础 设施 即 服务 ( IaaS ) 范式 也 深入 到 机 还 学 习 领 域 。 现 在 的 趋势 是 将 实际 数据 处 理 、 建 模 、 
预测 转移 到 云 环境 ， 将 主要 精力 放 在 建 模 任务 上 。 


本 节 将 介绍 一 些 有 前 景 的 服务 ,它们 提供 了 相关 算法 、 预 测 模型 (已 经 针对 特定 领域 做 过 训 
练 ) 与 环境 (增强 数据 科学 团队 之 间 的 协同 工作 流 )。 








机 器 学 习 即 服务 


第 一 类 是 算法 即 服务 ， 它 们 提供 一 些 API 或 GUI， 让 你 可 以 把 预先 编 好 的 数据 科学 流水 线 组 
件 连 接 起 来 。 


口 Google Prediction API: 通过 Web API 引 入 预测 服务 的 首 批 公司 之 一 。 这 项 服务 集成 在 
Google Cloud Storage 中 ， 用 作 数 据 存储 。 用 户 可 以 创建 一 个 模型 ， 并 且 调 用 API 得 到 预测 
结果 。 

口 BigML 带 有 一 个 用 户 友好 的 图 形 界面 ， 支 持 许多 存储 提供 商 ( 比如 Amazon S3 )， 并 且 提 

供 各 种 数据 处 理工 具 、 算 法 与 强大 的 可 视 化 功能 。 

口 Microsoft Azure Machine Learning 提 供 了 机 器 学 习 算法 库 、 数 据 处 理 功 能 以 及 图 形 用 户 
界面 ， 将 这 些 组 件 连 接 成 应 用 。 另 外 ， 它 提供 了 全 管理 服务 ， 你 可 以 使 用 它 把 自己 的 预 
测 模型 部 署 为 可 随时 使 用 的 web 服 务 。 

口 Amazon Machine Learning 进 入 市 场 相 当晚 。 它 的 主要 优点 是 可 以 与 其 他 Amazon 服 务 无 
颖 集成 ， 但 算法 数量 与 用 户 界面 仍 需 进一步 改善 。 
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口 IBM Watson Analytics: 主要 提供 应 用 于 特定 领域 的 模型 ， 比 如 语音 识别 、 机 器 翻译 、 异 
常 检 测 。 其 目标 是 工业 领域 ， 用 于 解决 用 户 的 特定 问题 。 

口 Prediction.IO 是 一 个 自 托 管 的 开源 平台 ， 它 提供 从 数据 存储 到 建 模 再 到 预测 的 全 栈 服务 。 
Prediction.IO 可 以 与 Apache Spark 通 信 ， 以 便 充分 利用 其 学 习 算 法 。 男 外 ， 它 附带 有 各 种 
针对 特定 领域 的 模型 ， 比 如 推荐 系统 、 流 失 预 测 等 。 


Predictive API 是 一 个 新 兴 领 域 ， 所 以 有 名 的 例子 不 多 。KDnuggets 给 出 了 50 个 机 絮 学 习 API 
列表 ， 网 址 如 下 : http://www.kdnuggets.com/2015/12/machine-learning-data-science-apis.html。 



































KW 若 想 学 习 更 多 相关 知识 ， 请 访问 PAPI， 网 址 为 : http://www. papi.io, 或 者 阅 
-~ 读 Louis Dorard 编 写 的 Bootstrapping Machine Learning。 


11.4 Web 资源 与 比赛 


这 一 部 分 将 介绍 在 哪些 地 方 可 以 找到 更 多 学 习 资 源 , 共同 参与 讨论 , 进一步 提升 数据 科学 相 
关 技 能 。 





11.4.1 数据 集 


机 顺 学 习 数 据 集 最 著名 的 存储 库 之 一 在 加 州 大 学 欧文 分 校 。UCI 存 储 库 包含 超过 300 个 数据 
集 ， 涵 盖 各 种 领域 ， 包 括 扑 元 、 电 影 、 葡 萄 酒 品质 、 行 为 识别 、 股 票 、 的 士 服务 轨迹 、 广 告 等 。 
每 一 种 数据 集 通 常 都 配 有 一 篇 研究 论文 ， 教 你 如 何 开始 ， 并 给 出 预测 基准 。 


可 以 通过 如 下 地 址 访问 UCI 机 器 学 习 存 储 库 : https://archive.ics.uci.edu， 如 图 11-4 所 示 。 
另 一 个 有 良好 维护 的 数据 集 集 合 在 GitHub ， 由 Xiaming Chen 维 护 : 






























































https://github.com/caesar0301/awesome-public-datasets 


这 个 Awesome Public Datasets 存 储 库 维 护 着 400 多 个 数据 源 链接 ， 涵 盖 各 种 领域 ， 比 如 农业 、 
生物 、 经 济 、 心 理学 、 博 物 馆 、 交 通 等 。 数据 集 一 一 特别 是 机 器 学 习 数 据 集 一 一 收录 在 图 像 处 理 、 
机 需 学 习 、 数 据 挑战 等 版 块 下 。 
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图 11-4 ”UCI 机 器 学 习 存 储 库 





11.4.2 在线 课程 


网 络 上 有 大 量 优质 这 些 课程 能 够 帮助 我 们 尽快 成 为 数据 科学 家 。 下 面 列 出 了 一 些 免 费 
在 线 课程 ， 你 可 以 通过 这 些 课 程 学 到 不 同 知 识 与 技能 。 


口 Java 在 线 学 习 课 种 


HE 





m Udemy: Learn Java Programming From Scratch( https:/www.udemy.com/learn-java-pro- 
gramming-from-scratch ) 

m Udemy: Java Tutorial for Complete Beginners (https://www.udemy.com/java-tutorial ) 

m LearnJavaOnline.org: Interactive Java tutorial (http:/www.learnjavaonline.org/ ) 


口 与 机 融 学 习 有 关 的 在 线 课 程 


昌 Coursera: Machine Learning (Stanford) by Andrew Ng: 讲授 许多 机 器 学 习 算 法 背后 的 
数学 ,解释 它们 如 何 工 作 ， 探 讨 它们 为 何 有 意义 https://www.coursera.org/learn/ 


machine-learning )。 





mm 
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Statistics 110 (Harvard) by Joe Biltzstein: 这 门 课 程 让 你 详细 了 解数 据 科 学 学 习 中 经 常 
听 到 的 很 多 相关 术 话 。 可 以 在 YouTube 观 看 课程 : http:/projects.iq.harvard.edu/stat110/ 
youtube。 

@ Data Science CS109 (Harvard) by John A. Paulson: 这 是 一 门 动手 课 ， 你 可 以 学 到 数据 
科学 的 Python 库 ， 也 包括 如 何 处 理 机 器 学 习 算 法 : http://cs109.github.io/2015/。 

















11.4.3 比赛 


奇想 增加 机 带 学 习 方面 的 知识 ,最 好 的 方式 是 亲自 动手 解决 实际 问题 。 如 有 果 想 积累 一 些 “ 精 
彩 ” 项 目的 经 验 ， 参 加 机 器 学 习 竞 赛 是 个 切实 可 行 的 起 点 。 


口 Kaggle: 这 是 头号 比赛 平台 ， 里 面 有 各 种 挑战 赛事 ， 奖 品 丰厚 ， 还 有 强大 的 数据 科学 社 
区 和 大 量 有 用 资源 。 可 以 通过 如 下 网 址 访问 : https:/www.kaggle.com/。 

口 CrowdANALYTIX : 这 是 一 个 众 包 数据 分 析 服 务 ， 主 要 是 生命 科学 与 金融 服务 业 ， 
https://www.crowdanalytix.com。 

口 DrivenData: 这 是 面向 社会 公益 的 数据 科学 比赛 ， 网 址 为 http://www.drivendata.org/。 







































































11.4.4 网 站 与 博客 


除了 在 线 课程 与 比赛 之 外 , 还 有 大 量 网 站 与 博客 刊登 了 数据 科学 的 最 新 研究 进展 ,以 及 解决 
不 同 问题 的 经 验 或 最 佳 实践 。 下 面 列 出 的 这 些 网 站 是 很 好 的 起 点 。 


口 KDnuggets: 这 是 数据 挖掘 、 分 析 、 大 数据 、 数 据 科 学 事实 上 的 门户 站 点 ,涵盖 新 闻 、 故 

事 、 事 件 以 及 其 他 相关 内 容 ，http:/www.kdnuggets.com/。 

口 Machine learning mastery: 这 是 一 个 初级 水 平 的 博客 ， 里 面包 含 了 许多 切实 可 行 的 建议 

与 指导 ， 告 诉 你 从 哪里 开始 ，http:/machinelearningmastery.comy/。 

口 Data Science Central: 包含 实用 社区 文章 ， 涵 盖 多 个 主题 、 算 法 、 商 业 案 例 ，http:/www. 

datasciencecentral.com/。 

口 Data Mining Research: 由 Sandro Saitta 扎 写 的 博客 , 网 址 为 http:/www.dataminingblog.com/。 

口 Data Mining: 由 Matthew Hurst 撰 写 的 博客 ， 内 容 涉 及 文本 挖 气 、 可 视 化 与 社交 媒体 ， 有 
很 多 有 趣 文 章 以 及 与 web 挖 气相 关 的 主题 ， 并 且 有 许多 应 用 被 Bing 与 微软 采用 ， 
http://datamining.typepad.com/data_mining/。 

口 Geeking with Greg: 由 Greg Linden 撰 写 的 博客 ， 它 是 Amazon 推 荐 引擎 的 编写 者 ， 也 是 互 

联网 企业 家 ， 博 客 地 址 为 http://glinden.blogspot.si/。 

口 DSGuide: 这 个 站 点 收录 了 超过 150 个 数据 科学 博客 , 网址 为 http://dsguide.biz/reader/sources。 
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11.4.5 ”场馆 与 会 议 
下 面 列 出 了 几 个 顶级 学 术 会 议 ， 涉 及 最 新 算法 : 


口 Knowledge Discovery in Databases (KDD) 

口 Computer Vision and Pattern Recognition (CVPR) 

口 Annual Conference on Neural Information Processing Systems (NIPS) 

口 International Conference on Machine Learning (ICML) 

DIEEE International Conference on Data Mining (ICDMD 

DD International Joint Conference on Pervasive and Ubiquitous Computing (UbiComp) 





DD International Joint Conference on Artificial Intelligence (IJCAD 
还 有 如 下 一 些 商 业 会 议 


DD O’Reilly Strata Conference 

口 The Strata + Hadoop World Conferences 
口 Predictive Analytics World 

口 MLconf 


此 外 ， 你 还 可 以 了 解 一 下 当地 的 聚会 小 组 。 





11.5 小结 


本 章 是 全 书 的 最 后 一 部 分 , 讨论 了 模型 部 署 的 一 些 方面 , 并 且 了 解 了 数据 科学 流程 标准 与 可 
交换 预测 模型 格式 PMML。 此 外 ， 还 介绍 了 一 些 在 线 课 程 、 比 赛 、Web 资 源 与 会 议 ， 充 分 利用 这 
些 资源 将 帮助 你 进一步 掌握 有 关机 器 学 习 的 知识 。 


我 希望 本 书 能 够 激励 你 更 深入 地 了 解数 据 科 学 , 促使 你 亲自 动手 , 尝试 各 种 机 器 学 习 库 , 掌 
握 解 决 各 种 问题 的 方法 。 请 记得 ， 书 中 所 有 源 代码 与 额外 资源 都 可 以 从 本 书 的 支持 站 点 获取 : 


http:Wwww.machine-learning-in-java.com。 
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